业务介绍 > 数据采集_武汉字符串数据科技有限公司

数据采集是指通过网络爬虫或网站公开API等方式从各大网站上获取我们所需要的数据信息，将结构化或非结构化数据从网页中爬取下来，并解析相关信息，将其储存为统一的本地数据文件，并以结构化的方式储存在我们的数据库中。

数据收集

团队使用Curl、Python及NodeJs等工具或语言，针对不同网站的实际情况，灵活定制爬虫方案，抓取网页源代码，而后使用正则表达式、Xpath或者文档树解析等方式对源代码进行处理，得到目标数据。

数据预处理

一般情况下，直接从网页爬取的数据并不能直接使用，而是需要经过一定的预处理，以保证数据质量和数据安全。数据预处理主要是去除无法解析的错误网页，删除重复的数据，去除无效的数据等。

数据来源

1）统计年鉴的批量下载，比如中国经济社会大数据研究平台等。

2）文献列表的批量下载，比如中国知网，美国经济评论网站等。

3）信息查询网站，比如中国土地市场网，企查查，天眼查，人人贷，佰腾网专利数据等。

4）交易所网站，比如上交所，深交所等。

5）财经新闻网站，比如新浪财经，第一财经，东方财富网，中国证券网，金融界，雪球财经，腾讯财经，第一财经等。

6）社交媒体，比如股吧，贴吧，微博，微信公众号等。

7）开源社区，比如github等。

8）其它可被解析引擎正确渲染的所有公开网站公开信息，团队均可针对网站不同情况灵活订制数据采集方案。

如果您想了解更多团队在该方面的案例工作，请浏览案例介绍 ->网络爬虫栏目(http://www.strcoder.cn/plus/list.php?tid=37)