实体提取/识别使用免费工具同时喂养Lucene指数

Question

我目前正在调查从文本中提取人名,位置,技术词和类别的选项(来自网络的大量文章),然后这些文章将被用于Lucene/ElasticSearch索引.然后将附加信息添加为元数据,并且应该提高搜索的精度.

例如,当有人查询"检票口"时,他应该能够决定他是指板球运动还是阿帕奇项目.到目前为止,我试图自己实现这一点并取得了一些成功.现在我找到了很多工具,但我不确定它们是否适合这项任务,哪些与Lucene集成良好,或者实体提取的精度是否足够高.

我的问题:

以下是与该主题相关的一些问题:

Answer 1

您在'wicket'示例中遇到的问题称为实体消歧,而不是实体提取/识别(NER).NER可能很有用,但仅在类别足够具体时才有用.大多数NER系统没有足够的粒度来区分运动项目和软件项目(两种类型都不属于通常认可的类型:人员,组织,位置).

对于消除歧义,您需要一个知识库来消除哪些实体的歧义.DBpedia因其广泛的覆盖范围而成为典型的选择.请参阅我的答案如何使用DBPedia从内容中提取标签/关键字？我提供了更多解释,并提到了几种消除歧义的工具,包括:

这些工具通常使用像REST这样的语言无关的API,我不知道他们直接提供Lucene支持,但我希望我的答案对你试图解决的问题有益.