使用PHP cURL从Wikipedia API中提取段落

Kan*_*ane 5 php parsing mediawiki curl wikipedia-api

以下是我使用Wikipedia(MediaWiki)API尝试做的事情 - http://en.wikipedia.org/w/api.php

  1. http://en.wikipedia.org/w/api.php?format=xml&action=opensearch&search=[keyword]上进行GET,以检索关键字的建议页面列表

  2. 使用http://en.wikipedia.org/w/api.php?format=json&action=query&export&titles=[page title] 上的GET循环浏览每个建议页面

  3. 将页面上的任何段落提取为数组

  4. 对阵列做一些事情

我坚持#3.我可以在段落之间看到一堆包含"\n \n"的JSON数据,但由于某种原因,PHP explode()函数不起作用.

基本上我只想抓住每个维基百科页面的"肉"(不是标题或任何格式,只是内容),并将其按段拆分为数组.

有任何想法吗?谢谢!

Emi*_*röm 1

这些\n\n字符实际上是那些字符,而不是换行符。确保在爆炸中的字符串周围使用单引号:

$parts = explode('\n\n', $text);
Run Code Online (Sandbox Code Playgroud)

如果您选择使用双引号,则必须\像这样转义字符:

$parts = explode("\\n\\n", $text);
Run Code Online (Sandbox Code Playgroud)

附注:为什么要以两种不同的格式检索数据?为什么不只选择 JSON 或只选择 XML?