我应该使用LingPipe或NLTK来提取名称和地点吗?

ped*_*ete 6 nlp nltk lingpipe

我希望从非常短的文本示例中提取名称和位置

 "cardinals vs jays in toronto"
 " Daniel Nestor and Nenad Zimonjic play Jonas Bjorkman w/ Kevin Ullyett, paris time to be announced"
"jenson button - pole position, brawn-mercedes - monaco".

这个数据目前在MySQL数据库中,我(几乎)为每个运动员都有一个单独的记录,虽然名字有时拼写错误等.

我想提取运动员和位置.我通常使用PHP工作,但是无法找到用于实体提取的库(我可能希望将来更深入地学习一些NLPML).

从我发现的,LingPipeNLTK似乎是最推荐的,但我无法弄清楚是否真的适合我的目的,或者其他什么会更好.

我没有用Java或Python编程,所以在开始学习新语言之前,我希望能得到一些关于我应该遵循的路线或其他建议的建议.

ned*_*ned 4

您所描述的称为实体识别。因此,如果您还没有看过有关此主题的其他问题,我建议您查看一下。看起来对我来说是最有用的答案。

我无法真正评论 NLTK 或 LingPipe 是否最适合此任务,尽管从答案来看,似乎还有很多其他资源是用 Java 编写的。

使用 NLTK 的一个优点是 Python 作为一种语言非常容易访问。另一个优点是NLTK 书(免费提供)同时提供了 Python 和 NLTK 的介绍,这对您很有用。