据说希腊的德尔菲神庙上刻着几条箴言,其中一条告诫我们要“认识你自己”。这条箴言刻起来容易,做起来却很难,甚至可能是人生最困难的事情之一。要想认识自己,大概有四种方法,一是客观内容的客观描述,如测量人的身高、体重等各种身体特征,这些特征在一定的时间内不会有太大幅度的变化,用来测量这些特征的工具也具有极高的信度和效度,因此不论从要了解的内容和用于了解该内容的方式,都是很客观的;二是客观内容的主观描述,如使用问卷量表测量人的各种能力,人的能力应该也是比较恒定的,但用于测量这些特征的工具,无论是编制过程还是施用过程,都避免不了与人为因素有关的干扰,即便硬要说它是客观的,也是“主观”的客观。三是主观内容的主观描述,如各种投射测验,对于这些测验,我没有实际接触过,但从书本上来看,难免不让我认为这种测验从内容到方式都不是那么客观;最后一种就显而易见了,即对主观内容的客观描述,如对推特的文本分析,我要进行的日记文本分析,也是这一范围之内的。日记本身是主观的产物,但这里我要对这些主观的内容进行客观的数据分析,进而从这一角度来加深对自己的了解,不过这个方法的局限性也很大,毕竟不是每个人都有几十万字的日记文本可以用来分析。另外再加一句,上面这段话,也可以说是对客观内容的主观描述。 这篇文章分为三部分,首先是对我每天记日记的时间进行一个简单的分析,然后对文本进行分词,针对词频进行分析,最后是一个初步的情感分析。下面先载入需要用到的包。 导入需要的包 library(tidyverse) library(readxl) library(jiebaR) library(ggthemes) 一般情况下,我的第一行代码都是library(tidyverse),这次主要用到了其中dplyr、tidyr、stringr以及ggplot2四个包;readxl包用来读入.xlsx格式的文件;jiebarR用来分词;ggthemes用来添加我最喜欢的tufte主题。 时间分析 首先要把日记中与时间有关的内容提取出来,我记录时间的格式很固定,都是20XX年X月X日 周X XX:XX的形式,通过以下代码,可以把这部分内容提取出来: time <- read_lines('dairy.txt') %>% as.tibble() %>% filter(str_detect(value, '.*年.*月.*日.*周')) %>% mutate(num = row_number()) %>% select(2, time = 1) 处理后是这个样子的: num time 1 2012年1月13日 周五 21:40 2 2012年1月14日 周六 21:41 3 2012年1月15日 周日 21:53 4 2012年1月16日 周一 21:58 5 2012年1月17日 周二 21:45 6 2012年1月18日 周三 21:51 7 2012年1月19日 周四 22:01 8 2012年1月20日 周五 21:43 9 2012年1月21日 周六 21:35 10 2012年1月22日 周日 21:53 所有的时间都放在一起是没法分析的,接下来我就把各部分时间分离开,并转化成了整数型,这一步代码如下:

Continue reading

关于动画的刻板印象

前段时间带孩子去看了《金龟子》动画大电影,感觉很无趣。我原以为其身为童年回忆,来到屏幕,面对长幼两辈,必有看点,没想到竟演出如此幼稚之戏!看了几分钟之后,我就开始玩手机了。坐我前面的也是一对父子,动画放了一半的时候,孩子问了他爸爸一句话,让我印象很深刻。他问:“爸爸,你怎么不看啊?”孩子显然是很喜欢这部动画的,希望他爸爸也跟他一起看,但这动画实在无法勾起我们的兴趣。电影结束回到家后,我产生了一个疑问,难道这部动画真的没办法制作成老少咸宜的吗?是出于什么原因,导致这部本来可以通过卖情怀让成年人也产生兴趣的动画最终只是一部低龄向动画?我想,原因不外乎在我们国家对于动画一直存在一个根深蒂固的刻板印象,即,动画是给小孩子看的。 小时候就经常听到大人们说,“你看谁谁谁,真是没出息,这么大了还看动画片。”我关于“动画是给小孩子看的”这一刻板印象应该就是那个时候形成的。不过,虽然有这么个刻板印象,我还是从小看到了大(别说,也确实没什么出息),因为在看的过程中,我并没有体验到“动画是给小孩子看的”这一点,不过大了之后,我从来不看国产动画就是了(除了陪孩子看《喜羊羊》《熊出没》之类的动画,不过说起来,好像连我家孩子也很少看这两部动画了),即便现在国产动画天天“崛起”,我也一丁点不想看。究其原因,大概是因为我关于动画的刻板印象在之前的基础之上发生了变化,变成了“国产动画是给小孩子看的”。 中学时一直在在追漫画《神兵玄奇》,后来听说要改编成动画了,挺激动的,谁知道改编成了《神兵小将》。这部时不时会有少儿不宜场景的成人向漫画到底经过了怎样的反向魔改才成为低龄向动画的?还是之前那个疑问,这部动画难道就不能通过适当的删改,制作成全年龄的吗?带着这种疑问,我试图去知网上寻找答案,我在检索处输入了“动画”一词,第一个匹配的关键词是“幼儿”,第二个是“身心发展”,看起来这一刻板印象确实是挺普遍的,连搞学术的人都这么认为了。我最终没能在知网上找到答案,所以我决定自己来对这一问题进行一下探究。 首先,我要确定两件事情: 关于动画是不是存在这样的刻板印象? 如果存在的话,这一刻板印象是仅限于我们国家,还是全都这样? 要进行验证的话,首先要有相关的数据。虽然我平常关于动画的信息会参考IMDB和MAL,但要完成这一任务,显然还是豆瓣更合适。我试图在豆瓣网站上爬取我所需要的信息,但折腾了一上午才发现,我所掌握的那一点点爬虫技术根本就无法爬取我所需要的数据,于是我就在网上找了一份现成的(早知道就不折腾了)。这份数据是2016年的,还算比较新,内容也完全符合我的需要。其次,要找到具有代表性的作品。关于哪些动画是代表性的,每个人肯定都有不同的看法,可能不会有特定的原型,所以这里我先用豆瓣上的评价人数为指标来评定动画的代表性,评价人数越多,就说明其越具有代表性。另外,要拿国产动画和国外动画进行对比,但实际上所谓的国外动画,主要就是美国和日本的动画(三个国家的动画数量占了全部动画数量的81.4%),所以后面只挑了这三个地区的数据。 先载入要用到的包: library(tidyverse) # 清洗数据及可视化 library(here) # 设置数据路径 library(knitr) # 呈现更好看的表格 library(kableExtra) # 同上 然后来看一下这份数据: douban <- read_csv(here('content', 'post', 'data', '180214-douban.csv')) head(douban, 10) %>% kable() %>% kable_styling(bootstrap_options = 'striped', font_size = 12) %>% scroll_box(width = '100%') 评分 名字 投票人数 类型 产地 上映时间 时长 年代 是否连续剧 集数 看过 待看 7.

Continue reading

Author's picture

孟祥良

R语言爱好者, 心理学专业硕士 & FGO休闲玩家