机器学习

R语言学习资源总结

Aug 8, 2019

Communication Concept & History Data Acquisition Machine Learning Onlinebook Program Tidyverse Website Visualization Basic Collection Common Plots Extension Map Modification Theory Communication Starting a Rmarkdown Blog with Blogdown + Hugo + Github (181110) 看了好几篇介绍用blogdown搭建博客的文章，只有这一篇文章介绍的方法让我成功了。 Adding GIF animations (190228; 190311) 介绍了在blogdown中添加动图和生成动图的方法。 Create Multiple Reports with RMarkdown (181129; 190311) 使用Rmarkdown批量生成报告的教程，测试有效，非常实用。 MANY REPORTS FROM 1 RMARKDOWN FILE (190311) 另一篇使用Rmarkdown批量生成报告的教程，没有实际测试，但应该没问题。 Happy collaboration with Rmd to docx (181110)

使用机器学习给自己推荐番剧：first try

May 5, 2019

A.关于数据 B.数据探索 b1.番名 b2.季数 b3.集数 b4.年份 b5.季节 b6.来源 b7.类别 b8.制作公司 b9.评分及人数 extra 1.个人、豆瓣与MAL的对比 b0.声优 extra 2.声优关系网络 C.建模与评估 c1.清洗数据 c2.创建训练数据集和测试数据集 c3.朴素贝叶斯算法 c4.规则学习算法 D.局限与展望花费许多时间学到的东西自然是要用一用的，如果工作中用不到的话，那就用来为生活增添些许乐趣吧。看番多年，难免遇到烂番，既浪费时间，又影响心情；另外，有些优秀的番剧，可能因为某些原因，与自己失之交臂。要是能在自己看过的番剧的基础上，建立一个模型，帮自己避免烂番，发掘好番，那真是再好不过了。于是我就把自己近年来看过的番剧整理了一下，收集了若干相关信息，做成了excel表格，作为建立模型的原材料。数据是手动整理的，花费的时间比我预计的多很多，但在整理的过程中，也引发了不少回忆，所以也算不上是浪费时间。 A.关于数据数据就是我看番的记录，不全，但应该是足够用了。反应变量是我对某番剧的评分，从5分到10分，是离散数据，在这第一次尝试中，计划将其变为二元分类数据，即5分到7分为不推荐，8分到10分为推荐。预测变量有十来个，包括番剧的年代、类型、制作公司、声优和网站评分等信息，在第一次尝试中，计划把数据弄成稀疏矩阵，使用朴素贝叶斯算法和规则学习算法来进行分类。在查看数据之前，先载入分析需要用到的包： library(tidyverse) library(readxl) library(here) library(ggthemes) library(corrplot) library(tidytext) library(widyr) library(igraph) library(ggraph) library(e1071) library(RWeka) library(gmodels) 然后导入数据，并进行初步的清洗： anime <- read_xlsx(here('content', 'post', 'data', 'anime_record.xlsx')) %>% mutate_all(str_remove_all, pattern = '\U00A0') %>% # 去掉不间断空格<U+00A0> select(-record_time) %>% mutate(studio = str_remove(studio, ',.*')) %>% mutate_at(vars(c('season_number', 'episode', 'year', 'rating', 'db_number', 'mal_number')), as.

《机器学习与R语言》学习笔记02：朴素贝叶斯

Apr 4, 2019

书中的第二个例子是利用朴素贝叶斯算法判断垃圾短信。首先载入需要用到的包： library(tidyverse) # 清洗数据 library(here) # 设置数据文件路径 library(tidytext) # 分词及创建稀疏矩阵 library(e1071) # 建模 library(gmodels) # 评估模型在清洗数据的时候遇到一定的困难，因为书中是用tm包进行文本处理的，而我完全没有用过这个包（甚至也没有装这个包），所以看书中的代码就只能凭感觉脑补了。不过，还好，最后还是成功写出了tidyverse化的数据清洗代码，如下： sms <- read_csv(here('content', 'post', 'data', '02-sms_spam.csv')) %>% mutate(type = factor(type), row = row_number()) %>% unnest_tokens(word, text) %>% anti_join(stop_words) %>% filter(!str_detect(word, '\\d')) %>% cast_sparse(row, word) %>% as.matrix() %>% as_tibble() %>% select(which(colSums(.) > 4)) %>% bind_cols(read_csv(here('data', '02-sms_spam.csv')) %>% mutate(type = factor(type), row = row_number()) %>% unnest_tokens(word, text) %>% anti_join(stop_words) %>% filter(!str_detect(word, '\\d')) %>% select(-3) %>% distinct()) %>% mutate_if(is.

《机器学习与R语言》学习笔记01：kNN

Apr 4, 2019

通过将《机器学习与R语言》一书中的代码tidyverse化，来学习这本书。书中第一个例子是利用kNN算法来诊断乳腺癌。首先载入需要用到的包： library(tidyverse) # 清洗数据 library(here) # 设置数据文件路径 library(knitr) # 呈现更好看的表格 library(kableExtra) # 同上 library(class) # 使用包中的knn()函数 library(gmodels) # 使用包中的CrossTable()函数然后导入数据并清洗： wbcd <- read_csv(here('content', 'post', 'data', '01-wisc_bc_data.csv')) %>% select(-id) %>% mutate(diagnosis = factor(diagnosis, levels = c('B', 'M'), labels = c('Benign', 'Malignant'))) %>% mutate_if(is.numeric, ~ (.x - min(.x)) / (max(.x) - min(.x))) 首先使用here函数找到数据文件的路径，然后使用read_csv函数将其读入R中；随后通过select函数将id变量去掉；然后利用mutate函数将diagnosis变量改为因子型；最后利用mutate_if函数，将所有数值型的变量进行min-max标准化，这里用到了公式化的匿名函数，可以使代码更为简练。此时的数据是这样的： wbcd %>% head() %>% kable() %>% kable_styling(bootstrap_options = "striped", font_size = 12) %>% scroll_box(width = "100%") diagnosis radius_mean texture_mean perimeter_mean area_mean smoothness_mean compactness_mean concavity_mean concave points_mean symmetry_mean fractal_dimension_mean radius_se texture_se perimeter_se area_se smoothness_se compactness_se concavity_se concave points_se symmetry_se fractal_dimension_se radius_worst texture_worst perimeter_worst area_worst smoothness_worst compactness_worst concavity_worst concave points_worst symmetry_worst fractal_dimension_worst Malignant 0.

R学习笔记及学习计划

Apr 4, 2019

人对事物的认识大概可以分为三个层次，从“未知的未知”到“已知的未知”再到“已知的已知”。如果确实是这样的话，那学习就可以分为两种，一种是把“未知的未知”变为“已知的未知”，如了解到这个世界上存在一种叫做“负数”的东西，但不知道它究竟指什么；另一种是把“已知的未知”变为“已知的已知”，如通过进一步的了解，获知“负数”的确切意义。德尔菲的神谕认为没有人比苏格拉底更聪明，其看重的可能并不在于苏格拉底是否比其他所有人拥有更多“已知的已知”，而是看到他比其他人拥有更多“已知的未知”。我不知道两种学习中哪一种更为重要，但我觉得，在大多数情况下，前一种学习都是后一种学习的先决条件。人的时间是有限的，没法把所有的知识都掌握，所以比较好的学习思路可能是先去获取足够多的“已知的未知”，再决定把哪些“已知的未知”转变为“已知的已知”。我接触R已经三年多了，但真正开始学习R，也就一年多的样子。我对R本身其实没有多大的兴趣，但当我把tidyverse变为“已知的未知”时，才对这门语言产生了热情。翻开哲学的入门书，很有可能会发现最开始的章节是以苏格拉底来划分的，如类似“前苏格拉底时代的哲学家们”的说法。在这里，我也想用tidyverse这个词来对我的笔记章节进行划分（当然，tidyverse对应的哲学家更有可能是笛卡尔），具体来说，包括tidyverse之前，用来介绍R的一些基本知识；tidyverse之内，用来介绍tidyverse核心包的使用方法；tidyverse之上，用来介绍建立在tidyverse核心包基础上的一些实用的包；tidyverse之外，用来介绍与tidyverse无关，但很有用的一些包。当然，这些内容中的很大一部分对我来说还是“已知的未知”。想弄这么个东西，目的主要有两个：一方面，把自己会的东西以教程的形式写出来，能让自己把“已知的已知”掌握得更牢固；另一方面，也能督促自己不断地去学习新知识，探索“未知的未知”，转化“已知的未知”。因此，内容方面，就包括我目前会的，和我将来想学的，具体内容可以看后面暂定的大纲。另外，我也给自己设定了几个要求：术语尽量给出参考资料和对应的英文，不知道该如何翻译的直接用英文，符号给出对应的英文及其读音；尽量保证所有的内容都能跟上R本体和所涉及的包的更新；暂定的提纲如下： tidyverse之前 R的介绍及安装 R的基本概念及操作 R中的条件与循环 tidyveRse之内使用readr导入数据使用rvest获取网络数据 dbplyr与数据库 dplyr包常用操作及管道操作符 tidyr包常用操作及tidy data stringr包常用操作及正则表达式 forcats常用操作 lubridate常用操作 purrr包探索组合使用 tidyverse代码风格 ggplot2基本统计图的绘制 ggplot2统计图的调整 ggplot2统计图的美化 tidyverse之上使用tidytext进行文本分析使用ggvis绘制交互统计图使用gganimate绘制动态统计图 tidyverse之外使用rmarkdown撰写报告使用blogdown搭建博客使用shiny制作网络应用

R的基本概念和操作

Mar 3, 2019

R的基本操作 a.计算 b.逻辑运算 c.赋值 R的基本概念 a.数据结构数据探索 b.函数 c.包 190424 R的基本操作 a.计算 R可以作为计算器使用，+、-、*、/、^分别代表加减乘除和乘方： 2 ^ 2 / 2 - (2 * 2 + 2) ## [1] -4 %%求余数，%/%求商： 5 %% 2 ## [1] 1 5 %/% 2 ## [1] 2 b.逻辑运算 ==、!=、>、>=、<、<=分别用来判断相等、不等、大于、大于等于、小于、小于等于的关系，符合逻辑返回TRUE，反之返回FALSE。对于部分字符（英文字母和汉字），似乎是字母顺序排在后面的更大；对于字符型数值，似乎与其数值型数值相等；另外，逻辑型数值中，TRUE等于1，而FALSE等于0： TRUE == 1 ## [1] TRUE FALSE == 0 ## [1] TRUE '白马' != '马' ## [1] TRUE 1 == '1' ## [1] TRUE 'x' < 'y' ## [1] TRUE '一' > '二' ## [1] TRUE c.

11年-19年读书记录分析

Feb 2, 2019

大概在10年前后，镇上给村里弄了个农村书屋，其他办公室都没地方，就把书连书柜都放我办公室里了。当时统计了下，一共有1500多本书，后来又给了一批，最终达到1800多本。这些书中的大部分质量和内容都很一般，但还是有几本好书的。反正工作也挺闲的，每天就靠看书打发点时间。时过境迁，工作已经换了几个，但看书的习惯还一直保持着。我从12年开始记日记，所以从那一年起，哪段时间看了哪本书都有记录。前几年把读书的记录整理过一次，但信息不全；今年过年前后，花了几天的时间又整理了一遍，添加了一些书籍相关的信息，就想着要不要也分析下（其实只是统计，并没有分析），算是对这些年自己读书的一个总结。有点遗憾的是，11年的记录只找到10月份到12月份的一部分，10月份以前的则完全没有记录，就没法统计进来了。但在分析之前，还得说明一下，有些书我没有进行统计，这些书包括以下四种：国产教材。比如为考研而看的《普通心理学》《心理学导论》之类的，但国外的教材，如《心理学与生活》等，不在此列。技术类的书。如跟R相关的书，有实体的，也有在线的，都没有被统计进来。电子书。不论是在手机上，kindle上，还是在更早的汉王上看的电子书，都没有统计进来。在看书这方面，我还是比较传统的，现在基本上只看实体书。太low的书。如，有套书名叫《卑鄙的圣人：曹操》，老爹看见了，非要买一套，当时只出了5本，就都买了下来。我是家里有的书就要看完的（大概就是看完这套书后改了这个“毛病”），就硬着头皮把这几本书看了一遍。听说这套书让作者赚了一百多万的版税，但这也无法掩盖作者文笔一般、词汇匮乏的事实。印象最深的是，曹操笑起来是“噗嗤”，袁绍笑起来也“噗嗤”，连曹操的老子曹嵩笑起来也“噗嗤”，这到底是一群大老爷们，还是一群小丫头片子啊（当然，用在曹嵩身上也许是合适的）？总之，这类书就不进行统计了。去掉以上四类书之后，剩下的书（共计465本次），就是要进行分析的了。首先还是载入分析需要用到的包： library(tidyverse) library(readxl) library(knitr) 然后把数据导入并进行清洗。由于数据已经在excel里整理好了，所以也没啥好清洗的，只是对每本书的字数进行了校正： book <- read_xlsx('读书记录.xlsx') %>% select(year = 2, name = 4, publisher = 6, author = 7, country = 8, dynasty = 9, classification = 10, language = 11, price = 12, page = 13, words = 14, manner = 15) %>% mutate(words = case_when(language %in% c('古汉', '英汉') ~ words*1.3, language %in% c('古语', '英语') ~ words*2, TRUE ~ words), words = ifelse(manner == '书内', words*.

（伪）动态网页爬虫-《狗十三》豆瓣短评爬取

Jan 1, 2019

这周公司组织了电影赏析，看的电影是《狗十三》。我之前并没有看过这部电影，就想着先去豆瓣上看一下评论。这电影的评论还不少，有好几百条，完全可以全爬下来，分析一下。拉到页面下面，点击后页，url就会跟着变化（start=那里），说明这也不是啥动态网页，完全可以写个循环，用rvest包一页一页的爬。但实际爬取的时候，遇到了问题，就是未登陆的状态下，只能爬前220条评论。我搜索了一下模拟登录的办法，似乎是成功了，但后续该怎么弄，我就不知道了。我在这里卡了一天，没想到解决办法。昨天早上躺在被窝里，突然想到，我之前研究了下用RSelenium爬取动态网页，这里我完全可以先用RSelenium模拟登录，然后把网页当成动态网页爬啊。试了一下，成功了，下面就是相关的操作过程。首先还是载入需要用的包，要使用RSelenium包，还要先进行一些配置，具体内容可以看RSelenium包的官方网站（这网站好像需要科学上网）： library(tidyverse) library(RSelenium) library(rvest) library(jiebaR) library(wordcloud2) library(knitr) 接下来跟Selenium Server进行连接，这里我用的是Chrome浏览器（变量名rd本应该在第一行，不知道为什么跑到下边去了……）： rd <- remoteDriver( remoteServerAddr = "localhost", port = 4444L, browserName = "chrome" ) 然后模拟打开豆瓣电影的登录页面，输入用户名和密码，点击登录按键，就可以登录了： rd$open() rd$navigate('https://www.douban.com/accounts/login?source=movie') we <- rd$findElement(using = 'xpath', '//*[@id="email"]') we$sendKeysToElement(list('用户名')) we <- rd$findElement(using = 'xpath', '//*[@id="password"]') we$sendKeysToElement(list('密码')) we <- rd$findElement(using = 'xpath', '//*[@id="lzform"]/div[6]/input') we$clickElement() 如果没接触过爬虫的，看着上面的代码可能有点懵，但实际上没啥太玄奥的东西。RSelenium包中的函数名就明白显示了它是干什么的，而参数中的那些xpath，在Chrome浏览器中都是可以直接复制出来的。后面就可以开始爬虫了。我只爬了评价星级、短评时间、有帮助次数和短评文本四项信息。需要说明的是，有些用户虽然写了短评，但不会打分，这种情况下，我认为的将其评价星级定位“无评价”。因为不打分也会影响后面内容的xpath，所以那部分用了一些if条件。另外，虽然不知道会不会用上，在每页的内容爬取完之后，我也会让程序随机休息几秒，省得被轻易地认定为是爬虫程序。 rd$navigate('https://movie.douban.com/subject/25716096/comments?start=0&limit=20&sort=new_score&status=P') dog13 <- tibble() for (i in 1:50) { rank <- character(0) time <- character(0) help <- character(0) text <- character(0) temp <- tibble() for (j in 1:20) { xpath_rank <- str_c('//*[@id="comments"]/div[', j, ']/div[2]/h3/span[2]/span[2]') we <- rd$findElement(using = 'xpath', xpath_rank) rank[j] <- ifelse(str_length(we$getElementAttribute('title') %>% unlist()) > 2, '无评价', we$getElementAttribute('title') %>% unlist()) if (str_length(we$getElementAttribute('title') %>% unlist()) < 3) { xpath_time <- str_c('//*[@id="comments"]/div[', j, ']/div[2]/h3/span[2]/span[3]') we <- rd$findElement(using = 'xpath', xpath_time) time[j] <- we$getElementText() %>% unlist() } else { xpath_time <- str_c('//*[@id="comments"]/div[', j, ']/div[2]/h3/span[2]/span[2]') we <- rd$findElement(using = 'xpath', xpath_time) time[j] <- we$getElementText() %>% unlist() } xpath_help <- str_c('//*[@id="comments"]/div[', j, ']/div[2]/h3/span[1]/span') we <- rd$findElement(using = 'xpath', xpath_help) help[j] <- we$getElementText() %>% unlist() xpath_text <- str_c('//*[@id="comments"]/div[', j, ']/div[2]/p/span') we <- rd$findElement(using = 'xpath', xpath_text) text[j] <- we$getElementText() %>% unlist() df <- tibble(rank, time, help, text) } dog13 <- bind_rows(dog13, df) rest <- sample(1:10, 1) if (i < 2) { we <- rd$findElement(using = 'xpath', '//*[@id="paginator"]/a') we$clickElement() Sys.

使用R语言模拟抢红包

Dec 12, 2018

有一次参加了一个特别无聊的讲座，实在是无事可做，就琢磨了一下像微信抢红包那样的机制是如何实现的。自己当时想了一个模拟的方式，出来的结果似乎也可以以假乱真。后来把相关的代码完善了下，用来在自己组织的R语言课上讲for循环和自编函数。现在把这些内容整理出来，权当作一篇小小的教程。首先假设，有人发了一个200块钱的红包，分给10个人抢： money <- 200 people <- 10 给每个人安排一个随机数： set.seed(181209) rand_number <- sample(1:10000, people, replace = TRUE) rand_number ## [1] 4188 591 2386 4520 3692 979 8170 3728 7121 4408 随后用每个随机数除以所有随机数的总和得到一个比值，乘以总钱数，进而得到每个人的钱数： rand_money <- rand_number/sum(rand_number)*money rand_money ## [1] 21.054219 2.971118 11.995073 22.723274 18.560692 4.921700 41.072820 ## [8] 18.741674 35.799211 22.160219 然后就可以知道具体每个人得到多少钱了： paste0(paste0(sample(letters, 5, replace = TRUE), collapse = ''), '得到了', round(rand_money[1], 2), '元，红包剩余', round(money - sum(rand_money[1:1]), 2), '元。') ## [1] "hdprm得到了21.

ggplot2及其扩展包绘图总结

Nov 11, 2018

Bar Plot Box Plot Heatmap Histgram Line Chart Map Pie Chart Radar Chart Scatter Plot Treemap 像这样的教程应该有很多了，但为了自己查阅起来方便，我决定自己也写一个。这里我会尽量多的用到各种theme和palette，省得每次绘图还要一个一个试，看哪个好看（通过这个过程，我可能体验到了女生出门前挑衣服的感觉）。先把需要用到的包载入： library(tidyverse) library(ggthemes) Bar Plot 直条图应该是最常见的了，在心理学论文中用到直条图时，一般都是把自变量放到x轴上，因变量放到y轴上，然后再添加误差条： iris %>% group_by(Species) %>% summarise(avg_sl = mean(Sepal.Length), se = sqrt(sd(Sepal.Length)/n())) %>% ggplot(aes(Species, avg_sl, fill = Species)) + geom_col(width = .5) + geom_errorbar(aes(ymin = avg_sl - se, ymax = avg_sl + se),width = .3) + scale_y_continuous(expand = c(0, 0)) + scale_fill_brewer(palette = 'Set2') + labs(y = 'Sepal.

使用机器学习给自己推荐番剧：first try

《机器学习与R语言》学习笔记02：朴素贝叶斯

《机器学习与R语言》学习笔记01：kNN

孟祥良

R语言学习资源总结

使用机器学习给自己推荐番剧：first try

《机器学习与R语言》学习笔记02：朴素贝叶斯

《机器学习与R语言》学习笔记01：kNN

R学习笔记及学习计划

R的基本概念和操作

11年-19年读书记录分析

（伪）动态网页爬虫-《狗十三》豆瓣短评爬取

使用R语言模拟抢红包

ggplot2及其扩展包绘图总结