团队简介

 
 

        武汉字符串数据科技有限公司因大数据产业而生,是产业升级与区域金融湖北省协同创新中心为因应大数据时代的产业发展,助力大数据产业,培养大数据人才和倡导大数据的产学研一体化而设立的。最初以公益团体“爬虫俱乐部”的身份开展活动,以传播Stata编程技术和实证研究技巧、培养有数据分析技能的专才为己任,以服务科研人员为主要手段,依托协创中心开展数据分析业务、培训业务和国际交流项目。

 
如今,爬虫俱乐部作为一个非常小众的技术流微信公众号,拥有遍布世界各地的三万多名粉丝,立足湖北,辐射全国及全世界。虽然立足湖北,但我们的公众号订阅用户却主要集中在北京、上海、广州、苏南、浙江等发达地区。
 
随着爬虫俱乐部知名度的提升,越来越多的用户希望爬虫俱乐部能够专门提供数据分析和数据定制的服务工作,为此我们成立了武汉字符串数据科技有限公司。公司的主要业务范围包括了网络数据收集、大数据分析等在内一系列数据分析业务。
武汉字符串数据有限公司现在有员工28名,其中拥有博士学位的教授和副教授8名,在读博士生6名,硕士生14名,平均年龄25岁,专业覆盖金融、会计、统计、计算机、市场营销等方向。我们是一支年轻的、知识型的开拓团队。
 
 

团队成员

 
 

         自俱乐部成立以来,陆续有宋凯、徐鑫、潘铖、刘贝贝、赵一、周鹏、李旭超、段满福、李子健、薛原、司海涛等在研究生期间得以到香港大学、岭南大学、香港理工大学和澳门大学等从事研究助理工作,多篇学生习作在《经济研究》、《金融研究》、《财贸经济》和《南方经济》等主流期刊得以发表,徐鑫、刘贝贝、周鹏、赵一、薛原、余金馨等被北京大学、武汉大学、清华大学、华中科技大学和中南财经政法大学录取为博士研究生,攻读博士学位。

 
 

培训工作

 
 

         爬虫俱乐部和字符串公司也承担了一系列的培训工作,曾经在武汉大学、华中科技大学、中央财经大学、中南财经政法大学、郑州大学、河南大学、福州大学、长沙理工大学、湖北大学和湖北经济学院等进行师资和研究生实证方法的培训,获得了一致的好评。爬虫俱乐部的公开培训也进行了八场,场场爆满座无虚席。此外,近期也推出了有关于Python的技术服务。

 
 

公司愿景

 
 

        武汉字符串数据有限公司现在有员工38名,其中拥有博士学位的教授和副教授8名,在读博士生6名,硕士生24名,平均年龄25岁,专业覆盖金融、会计、统计、计算机、市场营销等方向。我们是一支年轻的、知识型的开拓团队。

         字符串公司成立以后,原爬虫俱乐部的公益活动不变,我们依然坚持每天用推文为广大学者提供技术干货,为Stata、Python的发烧友们提供相关技术介绍。我们还专门开通答疑渠道,为有困惑的读者和粉丝朋友们提供一个技术交流的平台。依托字符串公司,我们有工程技术人员为研究者、企事业单位提供数据定制和数据分析服务。

 

 
 
 

数据挖掘的特色以及未来趋势探讨

 
 
 

        随着信息技术的迅猛发展,许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料。这些海量的数据往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,迫切需要能自动地、智能地将待处理的数据转换为有价值的信息,从而达到为决策服务的目的。在这种情况下,一个新的技术—数据挖掘应运而生。

        数据挖掘是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。

        在此背景下,李春涛教授领导的博士生、研究生及本科生组成了大数据分析和数据挖掘团队。团队学术与技术并重,精通Stata及Python编程技术,并对外提供高效的数据挖掘及处理服务。团队开发了多个热门的Stata命令,包括实现实证结果输出的reg2docx、sum2docx、t2docx、corr2docx等一系列命令,抓取上市公司交易数据、财务数据的cntrade、cnintraday、chinafin等命令,实现中文地址与经纬度之间转换的命令chinagcode和chinaaddress,能够转换pdf文档格式并帮助我们从中提取信息的wordconvert命令等等。其中相当多个命令都曾进入Stata ssc最热门的前十大外部命令。

         目前,文本分析技术是团队主抓的一个重点工程。文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。文本分析在所有大数据应用中都既有价值,并且特别有助于挖掘和利用相关人的行为、心态和观点。文本分析能够帮助我们挖掘消费者、投资者的情绪和偏好,评估上市企业信息披露质量,无论在学界还是业界都发挥着日益重要的作用,能够有着极为光明的前景。然而,文本分析有着极大的难度,尤其对于中文而言,由于词与词之间不像英文有空格作为分隔符,因此进行中文文本挖掘首先要对中文文本进行分词。而语言词汇是日新月异的,每天都有许多新词产生,因此分词的词库需要进行日常更新;此外,目前并没有专门用于财经类的词库,这是团队目前正在建设中的。文本分析还需要复杂的机器学习和编程技术,对设备的要求也更高,为了进行团队接下来的工作,需要服务器、工作站数台和专用的光纤。爬虫俱乐部目前已成立专门团队从事文本分析技术的研究,目前已建立并逐步完善财经类词库,并能够实现分词、词频分析、关键词抽取、语义网、主题模型、情感分析等各类文本挖掘方法。

 

 
 
 

团队愿景

 
 
 

        我们的目标是努力打造数据分析中心和文本分析中心,努力用我们的数据分析技术来便利学者们的研究,用大数据分析服务于政府和企业。在李春涛教授的带领下,已经在数据处理、分析领域有着多年的文化积淀,对于数据的分析处理有着自己独到的见解和处理方法;且在学术领域日益精进,学术造诣深厚;此外,我们更是毫无保留的向粉丝和学者们传播Stata、Python编程技术和学术研究技巧!

         摆在我们面前的是一个庞大的数据市场,我们相信这里有更多的数据需求需要我们去开发。我们会继续努力,以培养学生、技术研发为己任,在少量盈利的基础上,努力将公益事业做好,传播实证技术和数据分析方法、开发数据分析的工具等,造福于学界、业界,造福于全人类。