半自动注释工具 - 如何查找RDF三元组

Gav*_*cer 6 rdf annotations named-entity-recognition named-entity-extraction

我正在为医学文本开发一个半自动注释工具,我完全迷失了寻找注释的RDF三元组.

我目前正在尝试使用基于NLP的方法.我已经研究过Stanford NER和OpenNLP,他们都没有提取疾病名称的模型.

我的问题是:*如何创建一个新的NER模型来提取疾病名称?我可以从OpenNLP或Standford NER获得任何帮助吗?*除了NLP之外还有另一种方法 - 从文本中提取RDF三元组吗?

任何帮助,将不胜感激!谢谢.

cas*_*gna 4

我已经使用 OpenNLP 和 LingPipe 完成了与您需要的类似的操作。我发现 LingPipe 的基于字典的精确分块足以满足我的用例并使用它。此处提供的文档:http ://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html

您可以在这里找到一个小演示:

如果地名词典/词典方法对您来说不够好,您可以尝试创建自己的模型,OpenNLP 也有用于训练模型的 API。文档位于:http://opennlp.apache.org/documentation/1.5.2-incubating/manual/opennlp.html#tools.namefind.training

从自然语言中提取 RDF 三元组是一个与识别命名实体不同的问题。NER 是一个相关的、也许是必要的步骤,但还不够。要从自然语言中提取 RDF 语句,您不仅需要识别语句的主语和宾语等实体。但您还需要识别这些实体的动词和/或关系,并且还需要将它们映射到 URI。