中国期刊网财经发表系列数据

 免费数据     |      2019-05-05 18:13

价格:免费 点击下载

中国期刊网财经发表系列数据

        中国知网是目前国内最大最全的期刊数据库,无数学者从中翻看文献,然后在原来文献的基础上做出创新和突破,发表一篇又一篇对社会造成巨大影响的文章,因此,构建中国知网数据库变得非常有意义。目前已从中国知网上分三步抓取1997-2016年经管类期刊以及各大高等院校的学报近八十九万篇。中国知网关于文章信息前后总共三个页面,第一个页面有以下内容,文章标题,文章作者,文章来源,文章发表时间,文章下载量,文章引用量。第二个页面有以下内容,文章标题,文章作者,文章作者单位,文章摘要,文章基金,文章分类号。第三个页面有,文章对应的中文参考文献,有每一篇参考文献的信息,包括,文章标题,作者,发表时间,文献来源。

        该数据主要是对以上三个页面整理的信息进行整合,以文章标题作为唯一标识符,把所有数据进行合并,由于数据量比较大,只能把数据按照年份分开储存。并对数据进行挖掘,在爬虫俱乐部上公开发表三篇推文,其中,有一篇推文的阅读量达十万以上,引起社会巨大影响,获得社会众学者一致好评,并被疯狂转发。

        目前国内对期刊公认的指标是影响因子,影响因子是以该期刊近两年的引文总数量除以发文总数量,然而这种计算并不科学,因为期刊有高低区别,比如说,被经济研究引用肯定和被统计与决策引用不一样。然而国际上公认的影响因子,却把经济研究和统计与决策的权重都设为一,这明显不科学,我们所做的是,开始把所有初识权重都设为一,后面算出影响因子,进行归一化,把权重更新为归一化的影响因子。不停循环上述步骤,最终数列收敛,得到期刊排行