制作维基百科链接树

dan*_*705 4 wikipedia graph wikipedia-api

我正在尝试使用维基百科 API 来获取所有页面上的所有链接。目前我正在使用

https://en.wikipedia.org/w/api.php?format=json&action=query&generator=alllinks&prop=links&pllimit=max&plnamespace=0

但这似乎并不是从第一篇文章开始到最后一篇文章结束。我怎样才能让它生成所有页面及其所有链接?

svi*_*ick 6

英文维基百科大约有10.5亿个内部链接。考虑到该list=alllinks模块对每个请求 500 个链接的限制,从 API 获取所有链接是不现实的。

相反,您可以下载维基百科的数据库转储并使用它们。具体来说,您需要pagelinks转储,其中包含有关链接本身的信息,并且很可能还需要page转储,用于将页面 id 映射到页面标题。