专有名单?

BCS*_*BCS 5 text filtering classification corpus

我正在尝试从文本blob中过滤名称.目前我只是生成一个单词列表并手动过滤它但我已经有大约8k字了,所以我正在寻找更好的方法.我可以抓住一本字典并过滤掉它们,但这样可以剔除像史密斯和悬崖这样的名字.

我需要的是以下任何一种:

  • 常用名称列表(我需要> 5k最常见的名称)
  • 一个也恰好是单词的名单

我想他们之间,我可以组合黑名单/白名单来获得我需要的东西.

小智 5

美国人口普查名单:http://www.census.gov/genealogy/www/

无论如何,那应该让你对这个问题有一个角度.

编辑更改的URL,每个评论下面关于页面移动.没人相信HTTP 302了吗?