如何使用DBPedia从内容中提取标签/关键字?

Pri*_*aut 20 named-entity-extraction dbpedia

我正在探索如何使用维基百科的分类信息从我的内容中提取标签/关键字.

我找到了关于DBPedia的文章.DBpedia是一项社区工作,旨在从维基百科中提取结构化信息,并在Web上提供此信息.

有没有人使用他们的网络服务?你知道它们的工作原理和可靠性吗?

Joh*_*ann 21

DBpedia是一个梦幻般的高品质资源.但是,为了将您的内容转换为一组相关的DBpedia概念,您需要在文本中准确识别它们,这至少涉及两个步骤:

  1. 在您的内容中识别DBpedia概念:这包括识别文本中的概念名称(和替代名称),以及消除每个短语的所有可能含义之间的歧义.根据其消歧页面,术语"太阳"可以指代许多可能的概念,包括星形,报纸,人名等.这涉及实体识别,分类和链接.

  2. 确定其中哪些概念是有趣:比如,你想要的概念"定冠词"显示出来,当文本中包含术语""(这重定向到)?

您可能需要考虑预先存在的文本分析库或服务,它支持链接到DBpedia的实体.主题索引的一个很好的工具是Maui,它是由Alyona Medelyan在博士期间开发的.另一个伟大的开源解决方案是David Milne在同一所大学的维基百科矿工.

两个提供DBpedia概念链接的商业服务是Zemanta Extractiv(允许一定程度的免费使用). DBpedia聚光灯选项.可能提供这些功能的其他产品列于:https://stackoverflow.com/questions/2119279/is-there-a-better-tool-than-opencalais

披露:我[曾经]在Extractiv(已解散)工作,该计算机语言计算机公司的NLP提供支持.