相关疑难解决方法(0)

实体提取/识别使用免费工具同时喂养Lucene指数

我目前正在调查从文本中提取人名,位置,技术词和类别的选项(来自网络的大量文章),然后这些文章将被用于Lucene/ElasticSearch索引.然后将附加信息添加为元数据,并且应该提高搜索的精度.

例如,当有人查询"检票口"时,他应该能够决定他是指板球运动还是阿帕奇项目.到目前为止,我试图自己实现这一点并取得了一些成功.现在我找到了很多工具,但我不确定它们是否适合这项任务,哪些与Lucene集成良好,或者实体提取的精度是否足够高.

我的问题:

  • 有没有人对上面列出的一些工具及其精确/召回有经验?或者,如果需要培训数据+可用.
  • 是否有文章或教程可以为每个工具开始实体提取(NER)?
  • 他们如何与Lucene整合?

以下是与该主题相关的一些问题:

lucene nlp semantic-web mahout opennlp

44
推荐指数
1
解决办法
2万
查看次数

如何确定主语,宾语等词?

我正在尝试通过将句子分成较小的部分来实现可以确定句子含义的应用程序.所以我需要知道哪些单词是主题,对象等,以便我的程序可以知道如何处理这句话.

nlp artificial-intelligence

10
推荐指数
2
解决办法
5485
查看次数

使用Java命名实体识别

我想使用命名实体识别(NER)来为数据库中的文本找到足够的标签.我没有使用像NLTK或Lingpipe这样的工具,而是想构建自己的工具.

所以我的问题是:

  • 我应该使用哪种算法?

  • 构建这个工具有多难?

java tags nlp semantics

5
推荐指数
2
解决办法
2348
查看次数