寻找“近乎完美”匹配的公式

bra*_*don 7 worksheet-function microsoft-excel

我有一个 +-8000 个项目的列表,这是应用多种技术删除重复项后的结果(列表从 10000 多个项目开始)。

我现在有以下问题-

示例 1. Jack Daniel 2. Jack Daniels 3. Jack Daniel's

很明显,以上所有内容都与一个项目有关,但它们在技术上仍然是独一无二的。我尝试拉出前 4 个字母并检查匹配,但是有 +-4000,其中大部分是误报,即

  1. 杰克 Dxxx
  2. 杰克 Bxxx

两者都会拉杰克,但不会是有效的副本。

有什么想法吗?

Jam*_*ins 0

使用=len,如果差异小于2,则标记为可能

像 =mid(Value,(len_Value - 7),4) 这样的东西将其标记为可能的欺骗。

结合您已有的内容,您应该会获得更可行的设置。

编辑

像这样的公式,请注意 G2 中的“Jack Daniel”<>“Jack Berries”。但在其他地方看起来都可能匹配。您需要进行一些修改以满足您的特定需求,但它应该达到一个可管理的数字。

C1 =IF(左(A1,4)=左(B1,4),"T","F")

D1 =IF(LEN(A1) - LEN(B1) <= 2, "T", "F")

E1=LEN(A1)

F1=LEN(B1)

G1 =IF(MID(A1,(E1 - 7),4) = MID(B1,(E1 - 7),4), "T","F")

在此输入图像描述