使用Java命名实体识别

ani*_*aba 5 java tags nlp semantics

我想使用命名实体识别(NER)来为数据库中的文本找到足够的标签.我没有使用像NLTK或Lingpipe这样的工具,而是想构建自己的工具.

所以我的问题是:

  • 我应该使用哪种算法?

  • 构建这个工具有多难?

Mar*_*gus 5

不久前,当我研究马尔可夫链时,我这样做了.

无论如何,答案是:

我应该使用哪种算法?

例如,斯坦福NLP使用条件随机场(CRF).如果你不是想有效地做这件事,你就像Jackass 3d那样的家伙pissing in the wind.解析人类语言没有简单的方法,因为它的构造很复杂,并且有很多例外.

构建这个工具有多难?

好吧,如果你知道自己在做什么,那就不是那么难了.输入规则和逻辑的过程可能是烦人且耗时的,并且修复错误可能是非常重要的.但是在20年后,你可以做出一些对自己有用的东西.


Avi*_*Avi 2

NLTK 是一个开源项目。您可能想稍微探索一下 - 看看它是如何完成的,也许参与社区,而不是尝试自己从头开始完全解决问题......