Ser*_*dan 4 excel similarity duplicates
假设我有 9 行记录。每 3 行具有相同的值。例如:
Mike
Mike
Mike
John
John
John
Ryan
Ryan
Ryan
Run Code Online (Sandbox Code Playgroud)
有没有办法可以搜索这些记录的相似性?例如拼写错误、附加字符、缺失字符等。例如,正确的版本是Mike
,但列表中可能有记录Mke
不正确(拼写错误)。我怎样才能找到它并用正确的替换它?
上面的例子显然是简化的。我实际上有大约 100 万行。现在为了实现元素的“分组”,我只是按字母顺序对它们进行排序。
dot*_*.Py 11
我面临着完全相同的问题!通过一些搜索,我可以获得并修改以下 VBA 代码,该代码将启用名为=Similarity()
. 根据两个输入单元格的相似性,此函数将输出一个从 0 到 1 的数字。
我按字母顺序排列了我的列信息并应用了公式。然后我创建了一个Conditional Formatting Rule
突出显示具有高相似率(即:至少 65%)的那些。然后我搜索每个突出显示的事件并手动修复我的记录。
用法:
=Similarity(cell1, cell2)
Run Code Online (Sandbox Code Playgroud)观察:相似度指标从 0 到 1(0% 到 100%)
要使用它,您必须:
代码:
=Similarity(cell1, cell2)
Run Code Online (Sandbox Code Playgroud)
归档时间: |
|
查看次数: |
16472 次 |
最近记录: |