地理信息数据是人们日常生活中有着刚性需求的重要数据,更是从事区域经济学等方面研究的研究人员不可或缺的数据。通过对地理信息数据的分析研究,研究人员可以提炼出地区对于经济增长、变动的渠道与影响方式。因此,地理信息数据的质量好坏直接关系到研究工作的质量与效率,往期,人们从事相关研究所使用的数据多是从国家统计局等官方网站获取相关资料并加之手工整理,或者是通过非正规渠道获取较为偏门的数据信息,其可信度常常备受质疑,数据类型也较为单一,在经济学研究日益发展的今天,已渐渐不能满足研究人员进一步的需要。本中心从当前用户常用的地图应用百度地图入手,通过爬虫技术与百度地图API开放平台,构造了基于百度地图的系列数据。本系列数据着眼于发掘更大众化、更具备实际意义的地理信息数据,将可以很好地服务于相关经济学研究工作。
a) 关键词坐标点统计数据
根据研究人员指定的关键词,如咖啡馆,在全国地图范围内检索所有的咖啡馆站点数据,数据文件最后是所有已检索到的咖啡馆的结构化资料,包括以下数据属性:uid 每个站点唯一的标识代码、name 站点名称、address 站点的地址,如湖北省武汉市洪山区A店、province 站点所属省份或直辖市、city 站点所属城市、area 站点所属区县、lat 站点的维度、lng 站点的经度、telephone 站点联系方式、street_id 站点所属街道id。目前中心已存储一定量关键词的全国站点信息,如"新东方"、"学而思"、"酒吧"、"咖啡馆"等等,同时中心针对关键词坐标点统计数据封装完成了Python BaiduMap Download,一旦存在相关需求,即可以最快速度下载相应关键词数据。
b) 坐标点距离统计数据
根据两个给定的地址(可以是地理地址,也可以是经纬度地址),可以直接得出两者之间的球面距离以及交通距离(交通距离即从A点出发乘坐各种交通工具到达B点所花费的实际时间),交通距离是通过百度地图后台的计算平台给出的,与用户实际使用百度地图APP得到的花费时间一致,具有更强大的实际意义与创新意义。目前中心已就该项功能封装完成了Stata命令,cntraveltime。可以方便快捷地计算相关数据。
c) 范围检索统计数据
根据一个给定的地址(可以是地理地址,也可以是经纬度地址)和一个检索关键词,可以直接得出以该点为圆心,一定长度为半径的范围内关键词的检索结果,这种在一定范围内检索关键词站点的方式称之为范围检索。在相关研究中,范围检索可以有助于得出某个地点相对热度或权重等信息,具有很强的实际意义。目前中心已就该项功能封装完成了Stata命令,cnmapsearch。可以方便快捷地计算相关数据。