地理标记或Geolabelling文本内容的方法

Gre*_*ind 9 algorithm statistics nlp named-entity-recognition

有哪些好的算法可以自动标记城市/地区或来源的文本?也就是说,如果博客是关于纽约的,我怎么能以编程方式讲述.是否有声称以任何确定程度这样做的包裹/文件?

我已经看过一些基于tfidf的方法,专有名词交叉点,但到目前为止,没有引人注目的成功,我很欣赏这些想法!

更一般的问题是关于为主题分配文本,给出一些主题列表.

简单/天真的方法比贝叶斯方法更完整,但我是开放的.

Ale*_*rov 13

您正在寻找一个命名实体识别系统,或短NER.有几个 很好的 工具包可以帮助您.LingPipe特别有一个非常体面的教程.CAGEclass似乎是针对地理地名的NER而定,但我还没有使用它.

这是一个很好的博客文章,关于NER与地理名称的困难.

如果您使用Java,我建议使用LingPipe NER类.OpenNLP也有一些,但前者有更好的文档.

如果你正在寻找一些理论背景,Chavez等人.(2005)已经构建了一个有趣的参数并记录下来.

  • 你有没有找到这个问题的简单解决方案.. ?? 既然我也在寻找同样的应用程序..我已经实现了自己的Trie数据结构,我也可以轻松查找,但问题是收集数据集..我需要在字典中获取所有数据...请分享你的意见.. (2认同)