use*_*389 7 wikipedia wikidata
此页面: http: //wikidata.dbpedia.org/downloads/20160111/ 有一个名为 wikidatawiki-20160111-page-ids.ttl.bz2 的转储,其中包含 Wikidata id 到他们所谓的 wikipage id。不过,维基页面 ID 似乎与维基百科页面 ID 不同。
例如德国:
所以基本上这个转储将 Q183 映射到 322,而我需要将 Q183 映射到 11867。
作为参考:https://en.wikipedia.org/w/index.php? title=Germany&curid=11867 URL 中的 curid 代表维基百科页面 id。
是否有任何具有维基数据 ID 和维基百科页面 ID 的等效转储文件?(我不想使用 API 并像下面这样一一循环我的维基百科页面 id:https://en.wikipedia.org/w/api.php ?action=query&prop=pageprops&format=xml&pageids=11867 )
编辑:我不确定 waht 到底是 wikipage id,但也许在我在问题中提到的转储顶部有一个 wikipageId 到 Wikipedia pageid 映射文件。
我创建了一个 Python 包和命令行工具来处理名为wikimapper的问题。它可以通过安装pip install wikimapper
。它使用 Wikipedia SQL 转储来创建索引,然后可以使用该索引非常快速地进行多次映射(比 Wikidata SPARQL 端点快得多)。您可以使用我预先计算的索引之一并使用此 sqlite3 数据库,或者使用该包将维基百科页面标题/维基百科 URL 映射到维基数据 ID,反之亦然。使用页面名称或 URL 代替内部维基百科 ID 应该会更舒服。
我终于找到了上述请求的转储:
https://dumps.wikimedia.org/enwiki/20160720/
那里有一个文件:
enwiki-20160720-page_props.sql.gz
问题是该文件是一个MySql脚本,而我正在寻找 JSON 或 XML 文件。我编写了一个非常短的 PHP 脚本来提取括号块并具有适合我需要的格式。
归档时间: |
|
查看次数: |
3618 次 |
最近记录: |