无监督命名实体识别(NER),带有用于Java中交联建议的自定义控制词汇表

Gee*_*Jan 6 java information-retrieval named-entity-recognition text-mining

我正在寻找一个可以使用自定义控制词汇表进行命名实体识别(NER)的Java库,而不需要先标记训练数据.我在SE上搜索了一些,但大多数问题都不太明确.

考虑以下用例:

  • 编辑正在CMS中输入文章(约500字).
  • 文本可能包含对特定域的实体的引用(以纯文本形式).例如:
    • 兴趣点的名称,如酒吧,餐馆,以及社区等.
  • 存在这些实体的受控词汇表(约5.000个实体).
    • 我想象一个实体是词汇中的一个元组
  • 完成文本后,用户应该能够保存文档.
  • 这会触发工作流程,通过与实体名称进行比较,针对词汇表扫描文本.它不需要100%匹配:Jarao-winkler的97%或者其他(我不熟悉algo的NER使用的)可能就足够了,我需要这个是可配置的.
  • 命中数返回到控制器服务器端.这反过来将JSON返回给包含实体的客户端,这些实体表示为编辑器的建议交叉.

理想情况下,我正在寻找一个项目,该项目使用NRE来建议CMS环境中的交联以便搭载.(我确定wordpress的插件存在例如)不确定Java中是否存在类似的东西.

还欢迎使用与受控自定义词汇表一起使用的NRE库的所有其他更一般的指针.

Gee*_*Jan 3

对于将来查找此内容的人:

“近似基于字典的分块”请参阅:http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html

(网址已编辑。)