是否有 wikipedia Pageid 到 wikidata id 映射的转储?

use*_*389 7 wikipedia wikidata

此页面: http: //wikidata.dbpedia.org/downloads/20160111/ 有一个名为 wikidatawiki-20160111-page-ids.ttl.bz2 的转储,其中包含 Wikidata id 到他们所谓的 wikipage id。不过,维基页面 ID 似乎与维基百科页面 ID 不同。

例如德国:

  • 维基百科 pageid = 11867
  • 维基数据 id = Q183 和维基页面 id = 322。

所以基本上这个转储将 Q183 映射到 322,而我需要将 Q183 映射到 11867。

作为参考:https://en.wikipedia.org/w/index.php? title=Germany&curid=11867 URL 中的 curid 代表维基百科页面 id。

是否有任何具有维基数据 ID 和维基百科页面 ID 的等效转储文件?(我不想使用 API 并像下面这样一一循环我的维基百科页面 id:https://en.wikipedia.org/w/api.php ?action=query&prop=pageprops&format=xml&pageids=11867 )

编辑:我不确定 waht 到底是 wikipage id,但也许在我在问题中提到的转储顶部有一个 wikipageId 到 Wikipedia pageid 映射文件。

rei*_*eer 7

我创建了一个 Python 包和命令行工具来处理名为wikimapper的问题。它可以通过安装pip install wikimapper。它使用 Wikipedia SQL 转储来创建索引,然后可以使用该索引非常快速地进行多次映射(比 Wikidata SPARQL 端点快得多)。您可以使用我预先计算的索引之一并使用此 sqlite3 数据库,或者使用该包将维基百科页面标题/维基百科 URL 映射到维基数据 ID,反之亦然。使用页面名称或 URL 代替内部维基百科 ID 应该会更舒服。


use*_*389 2

我终于找到了上述请求的转储:
https://dumps.wikimedia.org/enwiki/20160720/

那里有一个文件:
enwiki-20160720-page_props.sql.gz

问题是该文件是一个MySql脚本,而我正在寻找 JSON 或 XML 文件。我编写了一个非常短的 PHP 脚本来提取括号块并具有适合我需要的格式。