半自动注释工具 - 如何查找RDF三元组

Question

我正在为医学文本开发一个半自动注释工具,我完全迷失了寻找注释的RDF三元组.

我目前正在尝试使用基于NLP的方法.我已经研究过Stanford NER和OpenNLP,他们都没有提取疾病名称的模型.

我的问题是:*如何创建一个新的NER模型来提取疾病名称？我可以从OpenNLP或Standford NER获得任何帮助吗？*除了NLP之外还有另一种方法 - 从文本中提取RDF三元组吗？

任何帮助,将不胜感激!谢谢.

Answer 1

我已经使用 OpenNLP 和 LingPipe 完成了与您需要的类似的操作。我发现 LingPipe 的基于字典的精确分块足以满足我的用例并使用它。此处提供的文档：http ://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html

您可以在这里找到一个小演示：

如果地名词典/词典方法对您来说不够好，您可以尝试创建自己的模型，OpenNLP 也有用于训练模型的 API。文档位于：http://opennlp.apache.org/documentation/1.5.2-incubating/manual/opennlp.html#tools.namefind.training

从自然语言中提取 RDF 三元组是一个与识别命名实体不同的问题。NER 是一个相关的、也许是必要的步骤，但还不够。要从自然语言中提取 RDF 语句，您不仅需要识别语句的主语和宾语等实体。但您还需要识别这些实体的动词和/或关系，并且还需要将它们映射到 URI。