dan*_*705 4 wikipedia graph wikipedia-api
我正在尝试使用维基百科 API 来获取所有页面上的所有链接。目前我正在使用
但这似乎并不是从第一篇文章开始到最后一篇文章结束。我怎样才能让它生成所有页面及其所有链接?
英文维基百科大约有10.5亿个内部链接。考虑到该list=alllinks模块对每个请求 500 个链接的限制,从 API 获取所有链接是不现实的。
相反,您可以下载维基百科的数据库转储并使用它们。具体来说,您需要pagelinks转储,其中包含有关链接本身的信息,并且很可能还需要page转储,用于将页面 id 映射到页面标题。