如何获取维基百科页面的HTML内容文本(通过维基百科API)?

Leo*_*rdo 7 php wikipedia-api

我只是想获得内容(没有链接,没有类别,没有图像......只是文字)

Ano*_*mie 10

没有办法从维基百科API中获取"只是文本".您可以下载网页的HTML(如果你通过的index.php做到这一点,而不是api.php,使用action=render以避免下载所有的内容皮肤)或wiki文字(可以通过API或通过传递做action=raw索引. PHP); 然后你必须自己解析它以删除你不想保留的位.

在HTML输出中,MediaWiki通常很适合将类添加到您可能想要过滤的各种界面元素中; 用户创建的模板等可能不那么重要(例如,表排序黑客只是将一些文本放在一个display:none范围内,没有类).

要通过API获取wiki文本,请使用prop=revisions.要获取呈现的HTML,请使用action=parse.