Joh*_*nny 14 wikipedia wikipedia-api
从维基百科获取所有关于人的文章的最简单方法是什么?我知道我可以下载所有页面的转储,但是我如何过滤那些只获取有关人员的内容?我需要尽可能多的(最好超过一百万),所以使用任何类型的API可能都不是一种选择.
截至2014年,您还有另一种选择:查询属性(P31)具有值(Q5)的所有实体的WikiData.instance ofhuman
完整的人类名单:https://www.wikidata.org/wiki/Special : WhatLinksHere/Q5
从该列表中筛选出任何没有sex or gender(P21)的东西,以摆脱像"科学家"这样的页面
这样,您就不需要跟踪维基百科每个不同语言版本(有285个)中人们使用的模板.