佰腾网数据爬虫

 数据采集     |      2018-09-20 17:19
 
 
 

项目简介

 
 
 

        收集佰腾网上1985-2017年专利信息数据共计1700万余条数据,主要包括专利申请号、名称、专利状态、申请人、申请日、分类号、专利摘要、公开日、授权日等内容。

 

 
 
 

详细介绍

 
 
 

       佰腾网记录了自1985年至2017年1700万条专利信息。所有申请的专利包括发明、实用新型、外观设计、发明授权四类专利,每条专利包含专利权利要求数量、引用先前技术文献数量、专利被引用次数、专利及专利申请案的家族、专利申请时程、专利年龄、专利诉讼。

        我们抓取了1985-2017年专利信息数据共计1700万余条,包括专利申请号、名称、专利状态、申请人、申请日、分类号、专利摘要、公开日、授权日、发明人、代理人、代理机构、专利评分、授权周期、引用信息、存活期等信息。

       由于数量过大,网站本身设置了反爬虫,访问量过大时会封ip甚至关闭服务器。团队共使用实验室的100台电脑进行抓取,并构造代理池在ip被封锁的情况下更换ip地址;同时逐步培养服务器适应大量的访问次数,连续工作一个月,将所有数据收集完成。

         同时专利数据库与中国工业企业数据库,CSMAR上市公司数据库,中国海关数据库匹配,根据专利数据库可以研究专利的特征、区域创新环境,能够更好地为国家创新驱动发展战略的实施以及“大众创业,万众创新”政策的落实提供经验证据。