处理来自多个容易出错的源的数据聚合的算法

Mat*_*een 11 algorithm data-mining

我正在汇总来自几个不同来源的音乐会列表,其中没有一个都是完整和准确的.某些数据来自用户(例如last.fm),可能不正确.其他数据源非常准确,但可能不包含每个事件.我可以使用事件日期和城市/州等属性来尝试匹配来自不同来源的列表.我想合理地确定这些事件是有效的.这似乎是一个很好的策略,可以使用尽可能多的不同来源来验证容易出错的源列表.

我不确定这个技术术语是什么,因为我想进一步研究它.是数据挖掘吗?有没有现有的算法?我知道解决方案永远不会完全准确.

Yuv*_*l F 1

我相信您正在寻找的术语是记录链接-

将与同一实体(例如,个人、家庭、事件、社区、企业、医院或地理区域)相关的两个或多个记录汇集在一起​​的过程

这份演示文稿 (PDF)看起来像是对该领域的一个很好的介绍。您可能使用的一种算法是Fellegi-Holt - 一种用于编辑记录的统计方法。