假设我有 9 行记录。每 3 行具有相同的值。例如:
Mike
Mike
Mike
John
John
John
Ryan
Ryan
Ryan
Run Code Online (Sandbox Code Playgroud)
有没有办法可以搜索这些记录的相似性?例如拼写错误、附加字符、缺失字符等。例如,正确的版本是Mike,但列表中可能有记录Mke不正确(拼写错误)。我怎样才能找到它并用正确的替换它?
上面的例子显然是简化的。我实际上有大约 100 万行。现在为了实现元素的“分组”,我只是按字母顺序对它们进行排序。