美国地址提取

 数据分析     |      2018-09-16 19:15

 

 
 
 

项目简介

 
 
 

       某学者得到了43370条美国地址数据,但是包含州名(缩写)、县、市、街道、门牌号、邮编和电话号码在内的所有信息被混合在一起,由于这些地址都是美国地址,很难区分,我们团队研究了这组地址的特征,通过手工整理发现规律,然后通过正则表达式编写Stata程序,将每条地址的信息拆开,保质保量地完成了学者交给的任务。

 
 
 

技术细节

 
 
 

(1)手工整理数据,发现规律
(2)利用Stata内置的地址标准化程序,整理地址信息
(3)通过正则表达式提取各信息片段
(4)对信息无法提取的部分进行手工核对,找到错误的原因,通过程序修改这些错误
(5)回到第(2)重新执行以上过程直到为所有地址都提取到合理的信息

 
 
 

项目结果

 
 
 

        从紊乱的433707条美国地址数据中准确地提取到了州,县、市、街道,房间号,门牌号,邮箱和邮编,完美从解决了长期以来困扰该位科研人员的关键技术问题