在excel中查找行值之间的文本相似性

Question

假设我有 9 行记录。每 3 行具有相同的值。例如：

Mike  
Mike  
Mike  
John  
John  
John  
Ryan  
Ryan  
Ryan

有没有办法可以搜索这些记录的相似性？例如拼写错误、附加字符、缺失字符等。例如，正确的版本是Mike，但列表中可能有记录Mke不正确（拼写错误）。我怎样才能找到它并用正确的替换它？

上面的例子显然是简化的。我实际上有大约 100 万行。现在为了实现元素的“分组”，我只是按字母顺序对它们进行排序。

Answer 1

我面临着完全相同的问题！通过一些搜索，我可以获得并修改以下 VBA 代码，该代码将启用名为=Similarity(). 根据两个输入单元格的相似性，此函数将输出一个从 0 到 1 的数字。

我按字母顺序排列了我的列信息并应用了公式。然后我创建了一个Conditional Formatting Rule突出显示具有高相似率（即：至少 65%）的那些。然后我搜索每个突出显示的事件并手动修复我的记录。

用法：
```
=Similarity(cell1, cell2)
```
Run Code Online (Sandbox Code Playgroud)

观察：相似度指标从 0 到 1（0% 到 100%）

代码：

=Similarity(cell1, cell2)