我不清楚从哪里开始.我从未做过任何NLP,只在Python 3.1中编程,我必须使用它.我正在查看网站http://www.linkedin.com,我必须收集所有的公开个人资料,其中一些有非常假的名字,比如'aaaaaa k dudujjek',我被告知我可以使用NLP找到真实姓名,我甚至会在哪里开始?
这是一个很难解决的问题,首先要获取有效的名字和姓氏列表。
您正在评估的名称集有多大?它们来自哪里?这些都是您需要考虑的重要事项。例如,如果您正在评估一小组“美国”姓名,则您的有效姓名列表将与日本或印度姓名列表有很大不同。
您抓取 LinkedIn 的想法是正确的,但您发现虚假个人资料/姓名缺陷的做法是正确的。更好的网站可能类似于 IMDB(可能通过迭代不同的出生年份来抓取姓名),或者维基百科的最受欢迎名字和最常见姓氏列表。
归根结底,这是一个精确度与召回率的问题:为了漏掉更少的假货,你不可避免地会扔掉一些真实姓名。如果放松限制,你会得到更多的假货,但你扔掉的真名也会更少。
| 归档时间: |
|
| 查看次数: |
804 次 |
| 最近记录: |