简单的,计算机可解析的常用名字列表？

Question

简单的,计算机可解析的常用名字列表？

Ror*_*ory 9 dataset

我需要一个人们常用名字的列表,比如"Bill","Gordon","Jane"等.是否有一些已知名称的免费列表,而不是我必须输入它们？我可以轻松解析程序以填充数组的东西吗？

我不担心:

知道一个名字是男性还是女性(或两者兼而有之)
如果数据集有一堆误报
如果有名称不在其上,显然没有这样的数据集将是完整的.
如果存在"重复",即我不关心数据集是否将"Bill","William"和"Billy"列为不同的名称.我宁愿拥有更多的数据而不是更少的数据
我不在乎知道这个名字的受欢迎程度

我知道维基百科有一个最受欢迎的名字列表,但这些都在HTML页面中,并且带有可怕的维基语法.有没有更好的方法来获取这样的样本数据,而无需屏幕刮擦维基百科？

Answer 1

Mar*_*off 27

来自苏格兰总登记处的 CSV,2007年在那里注册了所有的名字.
CSV格式和SQL格式的另一大组名字(但他们没有说哪个DB转储了SQL).
GitHub页面包含1880年至2009年的前1000个婴儿名称,已经从社会安全管理局解析为CSV .
普林斯顿CS页面中婴儿名字和含义的CSV.

我想,这应该足以让你开始.

Answer 2

hum*_*ads 6

社会保障管理局 - 超过1000个名称数据文件

以上是美国使用的名字的综合列表.zip文件以CSV格式包含出生年份的国家和州级数据.它包括出现次数(最少5次)和性别.例如,2010年的国家档案包括33,838个婴儿名称.

Answer 3

Jui*_*ter 5

您可以轻松使用维基百科API(http://en.wikipedia.org/w/api.php)来检索特定类别中的页面列表,看起来像类别:给定名称是您想要从中开始的.

http://en.wikipedia.org/w/api.php?action=query&list=categorymembers&cmnamespace=0&cmlimit=500&cmtitle=Category:Given_names

Run Code Online (Sandbox Code Playgroud)

此URL的结果部分如下所示:

  <cm pageid="5797824" ns="0" title="Abdou" />
  <cm pageid="5797863" ns="0" title="Abdu" />
  <cm pageid="859035" ns="0" title="Abdul Aziz" />
  <cm pageid="6504818" ns="0" title="Abdul Qadir" />

Run Code Online (Sandbox Code Playgroud)

查看API并选择适当的格式和查询参数,并检查类别.

PS BTW,您链接到的页面中的wiki文本包含易于使用正则表达式提取的表单中的名称...以及呈现的HTML页面中的链接标题都附有名称本身的"(名称)".

归档时间：	16 年，4 月前
查看次数：	12846 次
最近记录：	10 年，1 月前