不同地区日料店评论的文本分析案例

 文本分析     |      2018-09-20 17:18
 
 
 

项目背景

 
 
 

        改革开放40年以来,中外经济文化交流日益深刻。得益于经济发展水平的提高,越来越多的外来文化进入了我们的视野。美剧、韩流、日式餐饮等等新鲜事物不一而足,它们一方面带来了可观的经济效益,另一方面也潜移默化地使我们对文化原属国有了改观。在这其中,日本莫过于年轻人与老一辈争论的焦点。在豚骨拉面、寿司、日漫ACG已经遍布年轻人生活的当下,言必及侵略,谈必涉战争有点不合时宜,但民族的苦难记忆真的又这么容易消除吗?我们能否通过一个更新颖更有趣的视角来观察中日感情这一复杂的状态?这就是本案例所寻找的突破口与力求证明的问题。

 

 
 
 

思路概述

 
 
 

        本文通过抓取大众点评上日料店的门店信息及其评论,观察日料店在我国受欢迎的程度。

        一般来说,欢迎程度很难被度量,本文主要借助各个日料店的评论,采用文本分析的方法,通过Stata软件编写程序计算其情感得分。研究不同地方消费者对日料店的看法。

        进一步,本文将考察不同城市之间的看法差异。考虑到武汉和南京在抗日战争时期经历不同程度的侵害,由于南京大屠杀,日本对南京的影响更为深刻,所以本文选取武汉和南京两个一线城市的日料店的评论作为样本进行分析。

 

 
 
 

分析过程

 
 
 

        查阅了所有网站,发现大众点评对日料店的评论数据相对比较多,我们可以根据图 1观察一下大众点评的网页结构。


图1

        首先我们需要抓取所有武汉市日料店的名称,进而抓取对应店铺的评论(如图2)。


图 2

        根据网络数据抓取最终获得数据结构如图3所示。


图3

        通过数据处理,可以发现武汉总共有512家日本料理店,将评论数进行叠加共有124,586条评论。接着,对每家店铺的评论数进行排序,发现有37家日本料理店评论超过1000条。观察统计排名前十的店铺,如图4,发现仓桥家精致日式料理(世贸广场店)评论数目最高共有4468条评论。而且在武汉市仓桥家的评论偏高。

图 4

        同样,对南京市的所有日料店进行整理,最终得到南京市总共有598家日本料店,将评论数进行叠加总共261,685条评论。对每家店铺的评论数进行排序,发现有77家日本料理店评论超过1000条,大于武汉市的日料店,统计排名前十的店铺,如图5,发现米贩传奇(金鹰店)拥有将近13980。通过比较武汉与南京日料店的评论数量不难发现南京的日料店远比武汉的日料店活跃。


图 5

对武汉和南京总体日料店全部评论进行进行分词,进而观察正真影响日料店是哪些因素。通过stata与python的交互环境,采用“结巴”中文分词模块进行分词。分词结果如图6。


图6

        首先对分词的结果只保留名词动词形容词,其中分词结果中词性首字母n代表名词,a代表形容词以及v代表动词,可以采用之前介绍的stata正则表达式进行筛选命令为:

keep if ustrregexm(v12, "^[anv]"),然后剔除所有单个汉字的,最后匹配停用词数据库的,将所有停用词进行提取,其中停用词是包括标点符号、连词、介词、语气词等。整理完数据,对所有词做词频统计借助stata软件绘制词云图如图7所示。我们发现消费者对日料店的关注在服务、环境、味道、口味、菜品等方面。


图 7

        虽然南京的评论比较活跃,真实评价的内容从总体上看都是以服务口味为住,但是还是看出不了不同地区的消费者对日料店评论的差异,进而我们通过之前爬虫公众号推出的boson网站进行计算南京与武汉的日料店评论的情感得分,做t检验观察是否有显著性差异。借助boson网站的计算情感的得分的程序调用curl计算两个城市的评论的情感得分,如图8。


图 8

        计算情感得分的结果如[0.9227114362243807, 0.07728856377561938]里面包含正面倾向和负面倾向的比例。由于样本量过大计算市场太久,本文均是在武汉和南京随机抽取100进行计算情感得分,最后只保留正面倾向比例,将武汉和南京日料店的评论得分进行拼接,如图 9。


图9

        通过Stata中计算分组t检验ttest negative, by(city),如图10所示。我们可以得知南京和武汉的评论是由显著性差异,武汉的正面情绪更高,但是从均值来看两个地区的评论均正面情绪大于负面情绪,说明日料店相对比较受欢迎。


图 10

 

 
 
 

总结

 
 
 

        因为情感得分是作者随机抽取的,所有不足以直接说明南京和武汉的日料店评论有显著性差异。有兴趣的读者可以借助本文的研究思路自己研究两者的真实关系,是否真是由于抗日战争残害不同导致目前不同地区消费者对日料店的看法不同,还是随着现在外来文化的不断深入大家对日料店已经视为平常饮食的一个系列,并不在意其出处。