Ste*_*eve 8 location nlp named-entity-recognition
我想知道使用 NLP 框架从非结构化文本中提取部分(不含城市)或完整邮政地址的 NLP 框架的工作量?NLP 框架能有效地做到这一点吗?此外,“训练”命名实体识别模块以匹配新位置有多困难?
eld*_*ams 8
只要大多数地址格式正确且规则,即包含联系人姓名、街道号码、街道名称,以逗号分隔,您就可以找到基于规则的框架。
使用非结构化或部分结构化的文本将需要更多的预处理和统计,例如 morpho-syntax 和 CRF。斯坦福大学的工具是最流行的。搜索包含中间注释的语料库也可能是一个有趣的方向:不仅是“LOC”,还有“NUMBER”、“STREETNAME”、“CITY”等,以便即使它们没有也能提取位置完全的。对于这种注释,您可以查看树结构方法。
因此,工作量主要取决于您正在寻找多少正则表达式。
归档时间:
11 年 前
查看次数:
4876 次
最近记录:
6 年,11 月 前