Kar*_*ari 10 wikipedia information-retrieval wikidata knowledge-graph
我想计算特定语言(例如英语)的维基转储中的实体/类别。对于初学者来说,官方文档很难找到/遵循。到目前为止我所理解的是,我可以下载 XML 转储(我从所有可用的不同文件中下载什么),并解析它(?)以计算实体(文章主题)和类别。
该信息即使有,也很难找到。请帮助提供一些有关我如何使用它的说明或我可以了解它的资源。
谢谢!
小智 6
根据您的用例,具体的说明会有很大不同。您可以从https://dumps.wikimedia.org/enwiki/下载转储并在本地解析它们,也可以联系 API。
如果您想解析转储,https://jamesthorne.com/blog/processing-wikipedia-in-a- Couple-of-hours/ 是一篇很好的文章,展示了如何做到这一点。
然而,解析转储并不总是最好的解决方案。例如,如果您想知道三个最大的页面,您可以使用https://en.wikipedia.org/wiki/Special:LongPages。
除此之外,您还可以使用https://quarry.wmcloud.org查询维基百科数据库的实时副本。可以在https://quarry.wmcloud.org/query/38441找到示例。
这些转储相当笨重:即使是小的“真实”转储也有 25G。而且由于 RDF 相当冗长,因此会扩展到 >100G。所以我的一般建议是避免转储。
如果您无法控制,https://wdumps.toolforge.org/dumps允许您仅使用您想要的语言/属性/实体创建自定义的转储子集。
然后,逐行阅读并......对每一行做一些事情
| 归档时间: |
|
| 查看次数: |
12697 次 |
| 最近记录: |