小编PSt*_*PSt的帖子

比较两个名字的相似度并使用神经网络识别重复项

我有一个包含成对名称的数据集，它看起来像这样：

ID; name1; name2
1; Mike Miller; Mike Miler
2; John Doe; Pete McGillen
3; Sara Johnson; Edita Johnson
4; John Lemond-Lee Peter; John LL. Peter
5; Marta Sunz; Martha Sund
6; John Peter; Johanna Petera
7; Joanna Nemzik; Joanna Niemczik

Run Code Online (Sandbox Code Playgroud)

我有一些案例，已贴上标签。所以我手动检查它们并确定它们是否重复。这些情况下的手动判断将是：

1: Is a duplicate
2: Is not a duplicate
3: Is not a duplicate
4: Is a duplicate
5: Is not a duplicate
6: Is not a duplicate
7: Is a duplicate

Run Code Online (Sandbox Code Playgroud)

（第七个案例是一个具体案例，因为这里语音也参与了游戏。但这不是主要问题，我可以忽略语音。）

第一种方法是计算每对的编辑距离并将其标记为重复项，其中编辑距离例如小于或等于 2。这将导致以下输出：

1: Levenshtein distance: …

Run Code Online (Sandbox Code Playgroud)

python machine-learning neural-network levenshtein-distance tensorflow

PSt*_*PSt

2022 07-14

5
推荐指数

1
解决办法

1214
查看次数

标签统计

levenshtein-distance ×1

machine-learning ×1

neural-network ×1

python ×1

tensorflow ×1

比较两个名字的相似度并使用神经网络识别重复项

标签 统计

小编PSt_PSt的帖子

标签统计