通过任意文本正文确定地理位置

Ale*_* N. 7 nlp machine-learning

我正在研究一个我不确定如何处理的项目.问题可归纳如下:

  • 给定一段任意文本(有点像报告),确定报告的每个部分所指的地理位置.

地理位置从州到县(均在美国境内),因此其数量有限,但每个报告通常包含对多个位置的引用.例如,报告的前5段可能是关于整个州,然后接下来的5段将是关于该州内的个别县,或类似的东西.

我很好奇处理类似问题的最佳方法是什么,也许是根据NLP或ML框架(Python或Java)提出的具体建议?

Gra*_*D71 7

我实际上可以在这里帮助一点(我的研究是在Topname Resolution领域).

如果我理解正确,你正在寻找一种方法:(1)在文本中找到地名,(2)消除地名的地理参考,以及(3)空间地整个句子或段落.

有很多开源软件包可以做#1.斯坦福核心NLP,OpenNLP

有一些包可以做#1和#2.CLAVIN可能是目前唯一可以使用的开源应用程序.雅虎Placemaker需要花钱,但可以做到.

没有一个包可以做#3.有一个名为TEXTGROUNDER的新项目正在执行一个名为"文档地理位置"的项目,但是当代码可用时,它不会设置为在您自己的输入文本上运行.我只建议你看看它,如果你想要开始或做一个项目试图做这样的事情.

所有这三项任务仍然是正在进行的研究的一部分,并且根据源文本的详细信息可能会变得非常复杂.您没有提供有关您的文本的详细信息,但希望这些信息可以帮助您.