我有一个 +-8000 个项目的列表,这是应用多种技术删除重复项后的结果(列表从 10000 多个项目开始)。
我现在有以下问题-
示例 1. Jack Daniel 2. Jack Daniels 3. Jack Daniel's
很明显,以上所有内容都与一个项目有关,但它们在技术上仍然是独一无二的。我尝试拉出前 4 个字母并检查匹配,但是有 +-4000,其中大部分是误报,即
两者都会拉杰克,但不会是有效的副本。
有什么想法吗?
worksheet-function microsoft-excel
microsoft-excel ×1
worksheet-function ×1