如何将机器学习应用于模糊匹配

Question

假设我有一个MDM系统(主数据管理),其主要应用是检测和防止记录重复.

每当销售代表进入系统中的新客户时,我的MDM平台就会对现有记录进行检查,计算一对单词或短语或属性之间的Levenshtein或Jaccard或XYZ距离,考虑权重和系数并输出相似度得分,等等.

您典型的模糊匹配方案.

我想知道是否有必要应用机器学习技术来优化匹配输出,即以最高精度查找重复项.
它究竟是最有意义的.

关于这个话题也有这个很好的答案,但我不知道这个人是否真的使用了ML.

另外我的理解是,加权模糊匹配已经是一个很好的解决方案,甚至可能从财务角度来看,因为无论何时部署这样的MDM系统,您都必须进行一些分析和预处理,无论是手动编码匹配规则还是培训ML算法.

所以我不确定增加ML是否代表了重要的价值主张.

任何想法都表示赞赏.

Answer 1

使用机器学习的主要优点是节省时间。

很可能，如果有足够的时间，您可以手动调整权重并提出非常适合您的特定数据集的匹配规则。机器学习方法可能很难胜过为特定数据集定制的手工系统。

然而，手工制作一个好的匹配系统可能需要几天时间。如果您使用现有的 ML 进行匹配工具，例如Dedupe，则可以在一小时内（包括设置时间）学习好的权重和规则。

因此，如果您已经构建了一个在数据上表现良好的匹配系统，那么研究 ML 可能不值得。但是，如果这是一个新的数据项目，那么几乎可以肯定。