Flo*_*ris 6 email hash sha bigdata deduplication
是否真的可以通过使用一些标题来重复删除电子邮件,因为根据RFC,它们的message-id应该是唯一的?
有没有办法计算下面这个重复数据删除方法错过1个单一电子邮件的机会(这3个标题的sha512哈希)?
// $email is a parsed array containing 3 keys (mime headers) -> message_id, subject and date.
$hashStr = $email['message_id'];
$hashStr .= $email['subject'];
$hashStr .= $email['date'];
$uniqueEmailId = hash('sha512', $hashStr);
没有任何一封电子邮件可以被遗漏,这是一项至关重要的任务,我们可能需要对几个(> 2亿)mime文件进行重复数据删除.