BCS*_*BCS 5 text filtering classification corpus
我正在尝试从文本blob中过滤名称.目前我只是生成一个单词列表并手动过滤它但我已经有大约8k字了,所以我正在寻找更好的方法.我可以抓住一本字典并过滤掉它们,但这样可以剔除像史密斯和悬崖这样的名字.
我需要的是以下任何一种:
我想他们之间,我可以组合黑名单/白名单来获得我需要的东西.
小智 5
美国人口普查名单:http://www.census.gov/genealogy/www/
无论如何,那应该让你对这个问题有一个角度.
编辑更改的URL,每个评论下面关于页面移动.没人相信HTTP 302了吗?
归档时间:
16 年,4 月 前
查看次数:
4266 次
最近记录:
10 年 前