我需要哈希函数.用户将这些哈希写入计算机,因此哈希应该很短.我将在数据库中拥有大约5 000 000条记录.每个都必须有自己的哈希.我想有独特的哈希.但如果一些记录有相同的哈希值,我可以接受.独特更好.
MD2对我来说是安全的,但哈希很长:"8350e5a3e24c153df2275c9f80692773" - 32个字符.如果你必须在keybord上写10个MD2哈希你不开心...
Git每次提交都使用SHA1(40个字符).但在输出中只显示前7个字符:
$ git log
commit e2cfc89fae5b43594b2c649fd4c05bcc6d2d12ac
...
commit 56a8b4c50d4269dc3f88727472933fd81231f63b
...
commit ce2e9ddbe896b9592abbd5fcb6604b181809d523
...
commit 498c49833516ea33b6a40697634ea6e3cfd62328
...
commit b7d78aea415e64d8d441f9747fe6d5d48fe54ee5
$ git log --oneline | head -n 5
e2cfc89 commnit message...
56a8b4c commnit message...
ce2e9dd commnit message...
498c498 commnit message...
b7d78ae commnit message...
Run Code Online (Sandbox Code Playgroud)
它是如何安全/独特的?如果我将使用例如来自MD5/SHA-1/SHA-256的前5个或10个字符,它是否足够安全?
谢谢.
结帐hashids,用于从主键(或其他一组唯一数字)生成唯一的YouTube样式哈希.在MD5和SHA-1这个意义上它并不是真正的哈希,因为它的设计是可逆的.
例如,如果要"散列"单个整数主键,您可能会得到类似的关系
(PK: 1) <=> (hashid: 8dY0qQ)
Run Code Online (Sandbox Code Playgroud)
这是从您控制的秘密值播种的,因此用户无法确定他们真正引用的主键.如果您的数据库涉及更多,比如使用多个分片和复杂的密钥,那么您仍然可以.hashids获取整数列表作为输入:
(3, 171, 24) <=> (243j7Z)
Run Code Online (Sandbox Code Playgroud)
作为开发人员,您负责定义哈希的最小长度.当您生成越来越多的哈希值时,hashids可能会产生稍长的哈希值.
对于给定的输入(初始种子,最小散列长度和要散列的整数列表),保证散列是唯一的:
有没有冲突.生成的哈希值应该是唯一的.
有支持
默认情况下,git只显示7个字符,因为它将是唯一的几率,并且您可以使用足够的字符来引用提交/ blob以将其定义为唯一.
然而,在引擎盖下它仍然使用完整哈希.如果您的git树有两个具有相同前7个数字的提交,那么如果您只使用7个字符来标识其中一个提交,则会抛出错误.
如果用户正在输入系统已经知道的数据的哈希值,那么允许用户输入他认为需要的任意数量的字符,如果这不足以唯一地识别他正在讨论的哈希值,那么错误并提示更多.
7个十六进制字符可提供~2x10 ^ 7个可能的哈希值.假设你正在使用一个好的哈希 - 即它在值上有均匀的分布,那么通过平方近似,你有50%的机会在~19k*哈希后重复.这是否可以接受取决于您插入的数量
*对于N十六进制字符的散列,获得散列冲突的几率为50%的插入数量大约是0.5+sqrt(0.25-(2xln(0.5)x16^N))