had*_*ees 4 ruby wikipedia web-scraping dbpedia mediawiki-api
我试图将维基百科的信息框中的数据转换为哈希或其他东西,以便我可以在我的Ruby on Rails程序中使用它.具体来说,我对Infobox公司和Infobox人感兴趣.我一直在使用的例子是"福特汽车公司".我希望得到公司的信息以及与福特公司方框相关联的人员的人员信息.
我已经尝试从维基百科API或DBPedia中找出如何做到这一点,但我没有太多运气.我知道维基百科可以将一些东西作为json返回,我可以用ruby解析但是我无法弄清楚如何获取信息框.在DBPedia的情况下,我有点迷失在如何查询它以获取福特汽车公司的信息.
我投票支持DBpedia.
一个简单的解释是:
dbpedia命名方案是http://dbpedia.org/resource/WikipediaArticleName(唯一标识符),替换为空格_.
http://dbpedia.org/page/ArticleName(html预览)和http://dbpedia.org/data/ArticleName(.json/.jsod)是有关所需文章信息的JSON表示.(.rdf等可能会让你感到困惑.)
对于福特汽车公司,您应该要求:
http://dbpedia.org/data/Ford_Motor_Company.json
Run Code Online (Sandbox Code Playgroud)
要么:
http://dbpedia.org/data/Ford_Motor_Company.jsod
Run Code Online (Sandbox Code Playgroud)
(以较简单的方式)
现在,根据文章类型,个人或公司,有不同的属性定义它们依赖于dbpedia本体(http://wiki.dbpedia.org/Ontology).
更高级的步骤可能是使用SPARQL查询来获取数据.