中国知网数据处理

 数据分析     |      2018-09-16 17:35

项目背景

 
 

       知网数据库收录了国内学者在中文主要期刊上发表论文的情况,改数据库不仅方便了我们查找文献,也为关于文献学的研究提供了宝贵的素材。中国知网是目前国内最大最全的期刊数据库,无数学者从中翻看文献,然后在原来文献的基础上做出创新和突破,发表一篇又一篇对社会造成巨大影响的文章,因此,构建中国知网数据库变得非常有意义。目前已从中国知网上分三步抓取1997-2016年经管类期刊以及各大高等院校的学报近八十九万篇。中国知网关于文章信息前后总共三个页面,第一个页面有以下内容,文章标题,文章作者,文章来源,文章发表时间,文章下载量,文章引用量。第二个页面有以下内容,文章标题,文章作者,文章作者单位,文章摘要,文章基金,文章分类号。第三个页面有,文章对应的中文参考文献,有每一篇参考文献的信息,包括,文章标题,作者,发表时间,文献来源。

主要工作

 
 

       我们收集整理了中国主要高校发表的论文,特别关注了中文社会科学引文索引(CSSCI)中的经济类期刊(如《经济研究》《世界经济》《金融研究》《宏观经济研究》等共73种)、管理类期刊(如《管理世界》《管理学报》《南开管理评论》《科技进步与对策》等共29种)以及也会发表经管类文章的综合性社会科学类期刊(如《中国社会科学》《社会科学》《社会科学研究》《中州学刊》等共50种)、高校综合性社科学报(如《北京大学学报(哲学社会科学版)》《中南财经政法大学学报》《郑州大学学报》《求是学刊》等共70种)。由于统计学刚刚独立成为一类学科,在统计学期刊上发表文章的有很多显然是经济或管理类学者,所以我们也收录了主要统计类期刊(如《统计研究》《统计与决策》等)共4种。人口及地理类期刊如《人口与经济》《经济地理》等期刊也会发表经管类的文章,我们共收录了该类期刊12种。此外,我们还收录了不在CSSCI中的《投资研究》《保险研究》《武汉金融》《上海金融》《区域金融研究》《金融评论》等期刊共6种。最终共整理了244种期刊2000年~2016年共17年的数据,我们删除了作者或作者单位缺失的样本,删除了题名包含卷首语、寄语、发刊词、序言、简讯、会讯、会议简述、会议纪实、研讨会等关键词的文章,共筛选出文章801301篇,最后保留作者署名单位为985、211、主要财经类大学以及河南大学的文章。

成果发布

 
 

         通过一系列的算法和数据分析,我们整理发布了《中国高校财经、管理与综合类期刊灌水排行榜》、《高校学术大神:你的导师上榜了吗?》、《高校爱上期刊:一夫多妻与大众情人》3个排行榜,引起了学术界的广泛关注。


该数据为我们研究科研资助的效率,学院的结构、基础设施、组织形式等对学术产出的影响具有重要的价值。