相关疑难解决方法(0)

MD5是否仍然足以唯一识别文件?

MD5散列文件仍然被认为是一个足够好的方法来唯一地识别它,因为MD5算法的所有破坏和安全问题等?安全性不是我的主要关注点,但唯一标识每个文件的是.

有什么想法吗?

hash md5

134
推荐指数
5
解决办法
6万
查看次数

如何评估哈希冲突概率?

我正在开发一个搜索系统的后端应用程序.搜索系统将文件复制到临时目录并为其提供随机名称.然后它将临时文件的名称传递给我的应用程序.我的应用程序必须在有限的时间内处理每个文件,否则它将被关闭 - 这是一种看门狗般的安全措施.处理文件可能需要很长时间,所以我需要设计能够处理这种情况的应用程序.如果我的应用程序在下次搜索系统想要索引同一文件时关闭,它可能会给它一个不同的临时名称.

显而易见的解决方案是在搜索系统和后端之间提供一个中间层.它会将请求排入后端并等待结果到达.如果请求在中间层超时 - 没问题,后端将继续工作,只有中间层重新启动,并且当搜索系统稍后重复请求时,它可以从后端检索结果.

问题是如何识别文件.他们的名字随机变化.我打算使用像MD5这样的哈希函数来散列文件内容.我很清楚生日悖论,并使用链接文章中的估计来计算概率.如果我假设我有不超过100 000个文件,那么具有相同MD5(128位)的两个文件的概率大约为1,47x10 -29.

我应该关心这种碰撞概率还是假设相等的散列值意味着相同的文件内容?

language-agnostic estimation md5 probability

27
推荐指数
1
解决办法
2万
查看次数

标签 统计

md5 ×2

estimation ×1

hash ×1

language-agnostic ×1

probability ×1