我正在尝试使用维基数据对中国人进行一些研究.除了使用dbpedia(因为有关中国人的信息与zh.wikipedia.org相比有点限制),我发现我可以直接从zhwiki http://download.wikipedia.com/zhwiki/20150301/下载.
我看到有一个索引文件,从文件中我可以看到如下行:966576:291:人物
我假设是一个查找键?有人能告诉我如何使用此查找键来搜索主文件或数据库吗?
Int*_*cer 11
有两个文件
索引文件有行
offset是bz2流的起始偏移量.您需要从bz2文件读取offset1到offset2的字节并将它们传递给bz2解码器,它将从该流中为您提供100页的xml转储