小编PSt*_*PSt的帖子

比较两个名字的相似度并使用神经网络识别重复项

我有一个包含成对名称的数据集,它看起来像这样:

ID; name1; name2
1; Mike Miller; Mike Miler
2; John Doe; Pete McGillen
3; Sara Johnson; Edita Johnson
4; John Lemond-Lee Peter; John LL. Peter
5; Marta Sunz; Martha Sund
6; John Peter; Johanna Petera
7; Joanna Nemzik; Joanna Niemczik
Run Code Online (Sandbox Code Playgroud)

我有一些案例,已贴上标签。所以我手动检查它们并确定它们是否重复。这些情况下的手动判断将是:

1: Is a duplicate
2: Is not a duplicate
3: Is not a duplicate
4: Is a duplicate
5: Is not a duplicate
6: Is not a duplicate
7: Is a duplicate
Run Code Online (Sandbox Code Playgroud)

(第七个案例是一个具体案例,因为这里语音也参与了游戏。但这不是主要问题,我可以忽略语音。)

第一种方法是计算每对的编辑距离并将其标记为重复项,其中编辑距离例如小于或等于 2。这将导致以下输出:

1: Levenshtein distance: …
Run Code Online (Sandbox Code Playgroud)

python machine-learning neural-network levenshtein-distance tensorflow

5
推荐指数
1
解决办法
1214
查看次数