spa*_*kle 6 ruby wikipedia wikipedia-api dbpedia
我想通过JSON获取Wikiquote页面的结构化版本(基本上我需要所有短语)
示例: http ://en.wikiquote.org/wiki/Fight_Club_(film)
我尝试过:http://en.wikiquote.org/w/api.php?format = xml&action = paarse&page = Fight_Club_(film)&prop = text
但是我得到了所有的HTML源代码.我需要每个pharse作为Array的元素
我怎么能用DBPEDIA实现这个目标?

一方面,我不确定您是否可以使用 DBpedia 查询 wiki 引用,其次,DBpedia 仅以结构化方式为您提供信息框数据,它不会以任何方式以结构化方式提供文章内容。相反,您可以使用 Media wiki api 来获取数据,但会遇到一些麻烦
您正在尝试的 URI 会为您提供一个文本,因此这将使事情变得更容易,但并不完全如此。
在控制台中尝试这段代码:
require 'Nokogiri'
content = JSON.parse(open("http://en.wikiquote.org/w/api.php?format=json&action=parse&page=Fight_Club_%28film%29&prop=text").read)
data = content['parse']['text']['*']
xpath_data = Nokogiri::HTML data
xpath_data.xpath("//ul/li").map{|data_node| data_node.text}
Run Code Online (Sandbox Code Playgroud)
这是我得到的最接近的答案,当然这并不完全正确,因为你会得到很多不必要的数据。但是,如果您深入研究Nokogiri并xpath找出如何精确定位所需的节点,您可以获得一个解决方案,该解决方案至少在 90% 的时间内为您提供正确的报价。