设备配置-未来方向-备份文件

 免费数据     |      2018-11-09 13:22

价格:免费 点击下载

设备配置-未来方向-备份文件

 

设备配置

        本中心为了有效获取、存储、计算中心现有数据,已构建了中心自有数据库,并为之购置了一批性能优良、配置齐全的计算机设备,较好地满足了当前的数据存储与获取需求,目前中心有各类型号主机 28台,拥有两个计算机机房以供存放安置。

        中心的网站曾托管于校方服务器上,但因网络不稳定,近期已准备更换托管站点,托管至腾讯云服务器上,以获取更高带宽、更良好的广域网浏览速度。

一方面,在未来一段时间,中心会逐步开源一部分自有数据,供给同样有需求的研究人员使用,扩大中心知名度,另一方面,随着中心自有数据规模的不断扩大,计算任务的不断增加,现有资源已逐渐不能满足计算需求,故中心准备继续购置性能更高、容量更大的计算机主机,同时考虑到数据开源的带宽需求,拟准备购置相应的腾讯云服务器CVM计算资源,以供开源数据被高效下载,并承接日渐增长的数据存储、计算需求。

 

 

爬虫俱乐部展示数据挖掘的特色,数据处理的未来趋势探讨

        爬虫俱乐部是由李春涛教授领导下的研究生及本科生组成的大数据分析和数据挖掘团队。团队学术与技术并重,精通Stata及Python编程技术,并对外提供高效的数据挖掘及处理服务。团队开发了多个热门的Stata命令,包括实现实证结果输出的reg2docx、sum2docx、t2docx、corr2docx等一系列命令,抓取上市公司交易数据、财务数据的cntrade、cnintraday、chinafin等命令,实现中文地址与经纬度之间转换的命令chinagcode和chinaaddress,能够转换pdf文档格式并帮助我们从中提取信息的wordconvert命令等等。其中相当多个命令都曾进入Stata ssc 最热门的前十大外部命令。团队注重于将技术应用于学术研究中,李春涛教授带领团队成员发表在权威期刊的多篇文章中均用到了网络爬虫技术收集到的数据,目前也在力图实现将文本分析技术应用到学术研究中。

        文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。文本分析在所有大数据应用中都既有价值,并且特别有助于挖掘和利用相关人的行为、心态和观点。文本分析能够帮助我们挖掘消费者、投资者的情绪和偏好,评估上市企业信息披露质量,无论在学界还是业界都发挥着日益重要的作用,能够有着极为光明的前景。然而,文本分析有着极大的难度,尤其对于中文而言,由于词与词之间不像英文有空格作为分隔符,因此进行中文文本挖掘首先要对中文文本进行分词。而语言词汇是日新月异的,每天都有许多新词产生,因此分词的词库需要进行日常更新;此外,目前并没有专门用于财经类的词库,这是团队目前正在建设中的。文本分析还需要复杂的机器学习和编程技术,对设备的要求也更高,为了进行团队接下来的工作,需要服务器、工作站数台和专用的光纤。爬虫俱乐部目前已成立专门团队从事文本分析技术的研究,目前已建立并逐步完善财经类词库,并能够实现分词、词频分析、关键词抽取、语义网、主题模型、情感分析等各类文本挖掘方法。