我有一个名单,其中一些是假的,我需要使用NLP和Python 3.1来保留真实姓名并丢弃假名

Question

我有一个名单,其中一些是假的,我需要使用NLP和Python 3.1来保留真实姓名并丢弃假名

我不清楚从哪里开始.我从未做过任何NLP,只在Python 3.1中编程,我必须使用它.我正在查看网站http://www.linkedin.com,我必须收集所有的公开个人资料,其中一些有非常假的名字,比如'aaaaaa k dudujjek',我被告知我可以使用NLP找到真实姓名,我甚至会在哪里开始？

Answer 1

Mik*_*icz 3

这是一个很难解决的问题，首先要获取有效的名字和姓氏列表。

您正在评估的名称集有多大？它们来自哪里？这些都是您需要考虑的重要事项。例如，如果您正在评估一小组“美国”姓名，则您的有效姓名列表将与日本或印度姓名列表有很大不同。

您抓取 LinkedIn 的想法是正确的，但您发现虚假个人资料/姓名缺陷的做法是正确的。更好的网站可能类似于 IMDB（可能通过迭代不同的出生年份来抓取姓名），或者维基百科的最受欢迎名字和最常见姓氏列表。

归根结底，这是一个精确度与召回率的问题：为了漏掉更少的假货，你不可避免地会扔掉一些真实姓名。如果放松限制，你会得到更多的假货，但你扔掉的真名也会更少。

归档时间：	16 年前
查看次数：	804 次
最近记录：	15 年，9 月前