在excel中查找行值之间的文本相似性

Ser*_*dan 4 excel similarity duplicates

假设我有 9 行记录。每 3 行具有相同的值。例如:

Mike  
Mike  
Mike  
John  
John  
John  
Ryan  
Ryan  
Ryan
Run Code Online (Sandbox Code Playgroud)

有没有办法可以搜索这些记录的相似性?例如拼写错误、附加字符、缺失字符等。例如,正确的版本是Mike,但列表中可能有记录Mke不正确(拼写错误)。我怎样才能找到它并用正确的替换它?

上面的例子显然是简化的。我实际上有大约 100 万行。现在为了实现元素的“分组”,我只是按字母顺序对它们进行排序。

dot*_*.Py 11

我面临着完全相同的问题!通过一些搜索,我可以获得并修改以下 VBA 代码,该代码将启用名为=Similarity(). 根据两个输入单元格的相似性,此函数将输出一个从 0 到 1 的数字。

  • 我是如何使用它的:

我按字母顺序排列了我的列信息并应用了公式。然后我创建了一个Conditional Formatting Rule突出显示具有高相似率(即:至少 65%)的那些。然后我搜索每个突出显示的事件并手动修复我的记录。

观察:相似度指标从 0 到 1(0% 到 100%)

  • 例子:

在此处输入图片说明

  • 要使用它,您必须:

    1. 打开 VBE ( Alt+ F11)
    2. 插入模块
    3. 将以下代码粘贴到模块窗口中

在此处输入图片说明

代码:

=Similarity(cell1, cell2)
Run Code Online (Sandbox Code Playgroud)
  • 根据您的数据集输出:

在此处输入图片说明