小编Mat*_*nco的帖子

如何发现相同的文件而不将它们相互比较?

我正在建立一个用户可以上传内容的网站.一如既往,我的目标是世界优势,所以我想避免两次存储相同的文件.例如,如果用户尝试两次上传相同的文件(通过重命名或仅仅忘记她过去所做的事情).

我目前的方法是让跟踪每个上传文件的数据库存储有关每个文件的以下信息:

  • 文件大小(字节)
  • MD5文件内容的总和
  • SHA1文件内容的总和

然后是这三列的唯一索引.使用两个哈希值可以最大限度地降低误报的风险.

所以,我的问题是:两个相同大小的不同("真实世界")文件具有相同的MD5 SHA1哈希值的概率是多少?

或者:是否存在类似(非)复杂性的更智能方法?

(我知道概率可能取决于文件大小).

谢谢!

statistics comparison file unique hash-collision

3
推荐指数
1
解决办法
2853
查看次数

标签 统计

comparison ×1

file ×1

hash-collision ×1

statistics ×1

unique ×1