Excel 2013 模糊查找以查找接近重复的文本

Tim*_*Tim 5 lookup duplicate microsoft-excel

我有一个标题列表,其中包含大量几乎重复的内容。例如:

  • 她的生日
  • 她的生日
  • 生日 - 给她
  • 给她/生日

我正在研究模糊查找作为突出这些接近重复的一种方式

Dav*_*ill 3

我正在研究模糊查找作为突出显示这些近似重复项的一种方式

\n

Excel 的模糊查找加载项对 Excel 中的文本数据执行模糊匹配。

\n
\n

Excel 模糊查找插件

\n
\n

Excel 模糊查找加载项由 Microsoft Research\n开发,可对 Microsoft Excel 中的文本数据执行模糊匹配。

\n

它可用于识别单个表中的模糊重复行,也可用于模糊连接两个不同表之间的相似行。匹配对于各种错误都具有鲁棒性,包括拼写错误、缩写、同义词和添加/缺失的数据。

\n

例如,它可能检测到行 \xe2\x80\x9cMr。Andrew Hill\xe2\x80\x9d、\xe2\x80\x9cHill、\nAndrew R.\xe2\x80\x9d 和 \xe2\x80\x9cAndy Hill\xe2\x80\x9d 均引用相同的底层实体,\n返回每场比赛的相似度得分。

\n

虽然默认配置适用于各种文本数据,例如产品名称或客户地址,但也可以针对特定域或语言自定义匹配。

\n
\n

Excel源模糊查找加载项

\n
\n

关于相似度阈值配置有什么建议吗?

\n

在 Excel 中执行模糊查找对相似性阈值配置有一些提示。

\n