如何从维基百科中提取语义事实

use*_*493 -5 web-crawler

我想编写一个程序来浏览维基百科页面并以(“主题”,“关系”,“对象”)的形式提取语义事实。事实的例子可能是(“帝国时代”、“开发者”、“Ensemble Studios”)。这样的事怎么办呢?

jan*_*ogt 5

这是一个正在积极研究的问题。弗莱堡大学的西兰花引擎是一个快速入门的良好开端。他们必须准确解决这个问题,并且还必须使生成的数据集可用。有很多有趣的出版物,尤其是通过上下文句子分解进行开放信息提取的论文(PDF)将会对您的问题感兴趣。您可能还对他们的后续研究感兴趣。

如果您只需要某些数据,那么有更简单的方法来获取它 - 至少是一个很好的部分。有一个名为Freebase的公开可用的大型事实数据库,该数据库被 Google 收购,随后被停用,取而代之的是WikiData。不幸的是,他们在统一数据集时遇到了问题。幸运的是,整个 freebase 数据集仍然可供下载。