我想计算特定语言(例如英语)的维基转储中的实体/类别。对于初学者来说,官方文档很难找到/遵循。到目前为止我所理解的是,我可以下载 XML 转储(我从所有可用的不同文件中下载什么),并解析它(?)以计算实体(文章主题)和类别。
该信息即使有,也很难找到。请帮助提供一些有关我如何使用它的说明或我可以了解它的资源。
谢谢!
wikipedia information-retrieval wikidata knowledge-graph
information-retrieval ×1
knowledge-graph ×1
wikidata ×1
wikipedia ×1