bla*_*een 13 algorithm machine-learning fuzzy-comparison record-linkage
假设我有一个MDM系统(主数据管理),其主要应用是检测和防止记录重复.
每当销售代表进入系统中的新客户时,我的MDM平台就会对现有记录进行检查,计算一对单词或短语或属性之间的Levenshtein或Jaccard或XYZ距离,考虑权重和系数并输出相似度得分,等等.
您典型的模糊匹配方案.
我想知道是否有必要应用机器学习技术来优化匹配输出,即以最高精度查找重复项.
它究竟是最有意义的.
关于这个话题也有这个很好的答案,但我不知道这个人是否真的使用了ML.
另外我的理解是,加权模糊匹配已经是一个很好的解决方案,甚至可能从财务角度来看,因为无论何时部署这样的MDM系统,您都必须进行一些分析和预处理,无论是手动编码匹配规则还是培训ML算法.
所以我不确定增加ML是否代表了重要的价值主张.
任何想法都表示赞赏.