我有一个名单,其中一些是假的,我需要使用NLP和Python 3.1来保留真实姓名并丢弃假名

Vol*_*Rig 5 nlp python-3.x

我不清楚从哪里开始.我从未做过任何NLP,只在Python 3.1中编程,我必须使用它.我正在查看网站http://www.linkedin.com,我必须收集所有的公开个人资料,其中一些有非常假的名字,比如'aaaaaa k dudujjek',我被告知我可以使用NLP找到真实姓名,我甚至会在哪里开始?

Mik*_*icz 3

这是一个很难解决的问题,首先要获取有效的名字和姓氏列表。

您正在评估的名称集有多大?它们来自哪里?这些都是您需要考虑的重要事项。例如,如果您正在评估一小组“美国”姓名,则您的有效姓名列表将与日本或印度姓名列表有很大不同。

您抓取 LinkedIn 的想法是正确的,但您发现虚假个人资料/姓名缺陷的做法是正确的。更好的网站可能类似于 IMDB(可能通过迭代不同的出生年份来抓取姓名),或者维基百科的最受欢迎名字最常见姓氏列表。

归根结底,这是一个精确度与召回率的问题:为了漏掉更少的假货,你不可避免地会扔掉一些真实姓名。如果放松限制,你会得到更多的假货,但你扔掉的真名也会更少。