如何从维基百科中获取有关人员的所有文章?

Joh*_*nny 14 wikipedia wikipedia-api

从维基百科获取所有关于人的文章的最简单方法是什么?我知道我可以下载所有页面的转储,但是我如何过滤那些只获取有关人员的内容?我需要尽可能多的(最好超过一百万),所以使用任何类型的API可能都不是一种选择.

jpa*_*kal 10

由于关于人的文章通常包含Persondata模板,因此您只需搜索包含Persondata的所有文章.您可以在此处找到示例API查询:

Wikipedia API是否支持搜索特定模板?


leo*_*leo 7

截至2014年,您还有另一种选择:查询属性(P31)具有值(Q5)的所有实体的WikiData.instance ofhuman

完整的人类名单:https://www.wikidata.org/wiki/Special : WhatLinksHere/Q5

从该列表中筛选出任何没有sex or gender(P21)的东西,以摆脱像"科学家"这样的页面

这样,您就不需要跟踪维基百科每个不同语言版本(有285个)中人们使用的模板.