中国土地市场网数据

 数据采集     |      2018-09-20 17:20

 

 
 
 

项目简介

 
 
 

        中国土地的买卖一般通过招拍挂公开竞价,相关的信息也会通过中国土地市场网公布。 据统计。通过中国土地市场公布的1989-2017年之间的土地交易数据多达200多万条。这些数据对于公共财政、基础设施建设、房地产价格行程机制、地方政府行为、腐败与社会网络等课题具有极高的研究价值,一经公布,立即引起了学者们的广泛关注。可以如何系统地获得这些难能可贵的公开数据信息,也一直困扰着广大的学者。受武汉大学陈教授委托,爬虫俱乐部通过认真的研究,运用Stata编程,开发出了一套高效的程序,能够帮助学者获得相关的数据,并对数据进行规范的整理工作。整个工作包括两个方面,一方面数据收集;项目的土地数据主要从中国的土地结果公告和地块公告两个部分内容进行着手收集。最终我们将两部分数据整理成中国土地数据库。目前数据库包含1989年至2017年中国土地交易结果公告200余万条以及2010年至2017年的地块公示120余万。
        其中,结果公告数据包括以下供地信息:行政区、电子监管号、项目名称、项目位置、面积、土地来源、土地用途、供地方式、土地使用年限、行业分类、土地级别、成交价格、分期支付约定、土地使用权人、约定容积率、约定交地时间、约定开工时间、约定竣工时间、实际开工时间、实际竣工时间、批准单位、合同签订日期。
        地块公示包括批前公示、出让公示和成交公示三类信息,具体需要的数据为:
批前公示:宗地编号、地块位置、土地用途、土地面积、项目名称、受让单位及备注信息。出让公示:宗地编号、地块位置、土地用途、土地面积、出让年限、成交价、受让单位及备注信息。成交公示:宗地编号、地块位置、土地用途、土地面积、出让年限、成交价、受让单位、土地使用条件及备注信息。
        另一方面数据处理;对数据进行匹配。分为两部分,首先“出让公告”匹配“地块公示”信息。通过“出让公告”中的‘宗地编号’变量与“地块公示”中的‘地块编号’进行匹配;其次“地块公示”匹配“供地结果”信息。

 
 
 

技术难点

 
 
 

(1)每一块土地的链接地址没有规律,如何获得每块土地的链接地址
(2)土地市场网的服务器会因为系统维护而间歇性休息,在休息期间如何保证系统不被中断
(3)获得的页面为页面的源代码,如何将源代码中的有用信息提取出来

(4)数据合并依赖于土地的具体位置、成交价格和面积等信息,这些信息在录入的时候存在不规范和不一致的地方,如何通过模糊识别进行合并也是本项目的难点之一。