从 Wiki 转储中获取跨语言链接

Evg*_*y M 5 api wikipedia dump hyperlink wikidata

我正在尝试从维基百科转储中提取中间语言链接。这些链接似乎已移至 WikiData 项目,并且仅通过 API 提供访问权限。

此分支解释了如何处理该问题并建议切换到 API: 从导出的维基百科文章中检索中间语言链接?

然而,我的研究范围似乎太大,无法使用 Web API(数百万个查询)。有谁知道是否可以从 API 之外的任何地方提取这些链接?解析任意大小的转储比查询 API 更可取。

我使用的维基百科转储: http ://dumps.wikimedia.org/backup-index.html

我使用的维基数据转储: http://dumps.wikimedia.org/wikidatawiki/latest/

not*_*ing 2

Wikidata Toolkit是一个非常优秀的库,可以轻松处理 Wikidata 转储,它为您抽象了很多细节。在最新版本中,0.3有越来越多的示例脚本可以帮助完成像您这样的基本任务。在示例自述文件中我们发现SitelinksExample.java

该程序展示了如何获取有关维基数据转储中使用的站点链接的信息。维基媒体项目的链接使用诸如“enwiki”(英语维基百科)或“hewikivoyage”(希伯来语 WikiVoyage)之类的键。为了找出这些代码的含义,并为这些项目的文章创建 URL,Wikidata Toolkit 包含了一些简单的函数,可以下载和处理给定项目的站点链接信息。此示例展示了如何使用此功能。