问题:我有一个来自Access数据库的地址字段,该数据库已转换为Sql Server 2005.此字段包含一个字段中的所有内容.我需要将地址的各个部分解析为规范化表中的相应字段.我需要为大约4,000条记录执行此操作,并且它需要是可重复的.
假设:
假设在美国的地址(现在)
假设输入字符串有时包含收件人(被发送者)和/或第二个街道地址(即B组)
国家可以缩写
邮政编码可以是标准的5位数或zip + 4
在某些情况下存在拼写错误
更新:在回答提出的问题时,标准并未普遍遵循,我需要存储个别值,而不仅仅是地理编码和错误意味着拼写错误(上面已修正)
样本数据:
AP Croll&Son 2299 Lewes-Georgetown Hwy,Georgetown,DE 19947
11522 Shawnee Road,Greenwood DE 19950
144 Kings Highway,SW Dover,DE 19901
综合Const.服务2 Penns Way Suite 405 New Castle,DE 19720
Humes Realty 33 Bridle Ridge Court,Lewes,DE 19958
Nichols Excavation 2742 Pulaski Hwy Newark,DE 19711
2284 Bryn Zion Road,Smyrna,DE 19904
VEI Dover Crossroads,LLC 1500 Serpentine Road,Suite 100 Baltimore MD 21
580 North Dupont Highway Dover,DE 19901
PO Box 778 Dover,DE 19903
我有这个文字
"嗨,Sam D. Richards先生住在这里,44 West 22nd Street,New York,NY 12345.你现在可以联系他吗?如果您需要帮助,请致电12345678'''
.如何使用NLTK从上面的文本中提取地址部分?我试过了Stanford NER Tagger,这只给我一个New York位置.怎么解决这个?
我正在尝试使用xampp上的php从一长串文本中识别并提取任何输入地址位置(不限于US- SmartyStreet)。
我已经阅读了有关如何执行此操作的几个主题/库,这些主题/库围绕使用NLP,Google的Geocoding API和regex执行上述任务。这3个链接是一些合理的链接,可以帮助链接1,链接2,链接3 / GitHub库(似乎很有前途)。
但是,我不知道这些链接对实施是否有帮助?有人可以帮我吗?