如何使用wiki下载的索引文件中提供的信息?

dax*_*axu 8 wiki wikipedia

我正在尝试使用维基数据对中国人进行一些研究.除了使用dbpedia(因为有关中国人的信息与zh.wikipedia.org相比有点限制),我发现我可以直接从zhwiki http://download.wikipedia.com/zhwiki/20150301/下载.

我看到有一个索引文件,从文件中我可以看到如下行:966576:291:人物

我假设是一个查找键?有人能告诉我如何使用此查找键来搜索主文件或数据库吗?

Int*_*cer 11

有两个文件

  • zhwiki-20150301-pages-articles-multistream.xml.bz2 1.1 GB - 它有多个bz2流,每个流100个页面
  • zhwiki-20150301-pages-articles-multistream-index.txt.bz2 18.8 MB - 索引文件

索引文件有行

  • 偏移1:pageId1:TITLE1
  • 偏移1:pageId2:标题2
  • ..
  • offset2:pageId101:title101等.

offset是bz2流的起始偏移量.您需要从bz2文件读取offset1到offset2的字节并将它们传递给bz2解码器,它将从该流中为您提供100页的xml转储