我目前正在调查从文本中提取人名,位置,技术词和类别的选项(来自网络的大量文章),然后这些文章将被用于Lucene/ElasticSearch索引.然后将附加信息添加为元数据,并且应该提高搜索的精度.
例如,当有人查询"检票口"时,他应该能够决定他是指板球运动还是阿帕奇项目.到目前为止,我试图自己实现这一点并取得了一些成功.现在我找到了很多工具,但我不确定它们是否适合这项任务,哪些与Lucene集成良好,或者实体提取的精度是否足够高.
我的问题:
以下是与该主题相关的一些问题:
我正在尝试通过将句子分成较小的部分来实现可以确定句子含义的应用程序.所以我需要知道哪些单词是主题,对象等,以便我的程序可以知道如何处理这句话.
我想使用命名实体识别(NER)来为数据库中的文本找到足够的标签.我没有使用像NLTK或Lingpipe这样的工具,而是想构建自己的工具.
所以我的问题是:
我应该使用哪种算法?
构建这个工具有多难?