我有一个包含成对名称的数据集,它看起来像这样:
ID; name1; name2
1; Mike Miller; Mike Miler
2; John Doe; Pete McGillen
3; Sara Johnson; Edita Johnson
4; John Lemond-Lee Peter; John LL. Peter
5; Marta Sunz; Martha Sund
6; John Peter; Johanna Petera
7; Joanna Nemzik; Joanna Niemczik
Run Code Online (Sandbox Code Playgroud)
我有一些案例,已贴上标签。所以我手动检查它们并确定它们是否重复。这些情况下的手动判断将是:
1: Is a duplicate
2: Is not a duplicate
3: Is not a duplicate
4: Is a duplicate
5: Is not a duplicate
6: Is not a duplicate
7: Is a duplicate
Run Code Online (Sandbox Code Playgroud)
(第七个案例是一个具体案例,因为这里语音也参与了游戏。但这不是主要问题,我可以忽略语音。)
第一种方法是计算每对的编辑距离并将其标记为重复项,其中编辑距离例如小于或等于 2。这将导致以下输出:
1: Levenshtein distance: …Run Code Online (Sandbox Code Playgroud) python machine-learning neural-network levenshtein-distance tensorflow