数据采集是指通过网络爬虫或网站公开API等方式从各大网站上获取我们所需要的数据信息,将结构化或非结构化数据从网页中爬取下来,并解析相关信息,将其储存为统一的本地数据文件,并以结构化的方式储存在我们的数据库中。
数据收集
团队使用Curl、Python及NodeJs等工具或语言,针对不同网站的实际情况,灵活定制爬虫方案,抓取网页源代码,而后使用正则表达式、Xpath或者文档树解析等方式对源代码进行处理,得到目标数据。
数据预处理
一般情况下,直接从网页爬取的数据并不能直接使用,而是需要经过一定的预处理,以保证数据质量和数据安全。数据预处理主要是去除无法解析的错误网页,删除重复的数据,去除无效的数据等。
数据来源
1)统计年鉴的批量下载,比如中国经济社会大数据研究平台等。
2)文献列表的批量下载,比如中国知网,美国经济评论网站等。
3)信息查询网站,比如中国土地市场网,企查查,天眼查,人人贷,佰腾网专利数据等。
4)交易所网站,比如上交所,深交所等。
5)财经新闻网站,比如新浪财经,第一财经,东方财富网,中国证券网,金融界,雪球财经,腾讯财经,第一财经等。
6)社交媒体,比如股吧,贴吧,微博,微信公众号等。
7)开源社区,比如github等。
8)其它可被解析引擎正确渲染的所有公开网站公开信息,团队均可针对网站不同情况灵活订制数据采集方案。
如果您想了解更多团队在该方面的案例工作,请浏览案例介绍 ->网络爬虫栏目(http://www.strcoder.cn/plus/list.php?tid=37)