如何在命名实体识别中解析同义词?

Sea*_*red 4 nlp named-entity-recognition nltk

在自然语言处理中,命名实体识别是识别命名实体(例如组织、地点和最重要的名称)的挑战。

尽管我称之为同义词,但在这方面存在一个重大挑战:伯爵德古拉实际上指的是同一个人,但有可能从未在文本中直接讨论过。

解决这些同义词的最佳算法是什么?


如果任何基于 Python 的库中有此功能,我很想接受教育。我正在使用 NLTK。

mba*_*rov 5

您正在描述共指解析和命名实体链接的问题。我提供单独的链接,因为我不完全确定您指的是哪一个。

  • 参考:Stanford CoreNLP目前拥有最好的实现之一,但使用的是 Java。我使用了python 绑定,但我不太高兴——我最终通过斯坦福管道运行了我的所有数据,然后在 python 中加载处理过的 XML 文件。显然,如果您必须实时处理,这将不起作用。
  • 命名实体链接:查看Apache Stanbol和以下Stackoverflow 帖子中的链接。