Vin*_*ent 8 python random hash
我有一个包含多个字符串的数据集.我想将这些字符串中的每一个与一个浮点数相关联,"随机"分布在该[0:1]范围内.例子:
>>> myfunction(string_1)
0.26756754
>>> myfunction(string_2)
0.86764534
Run Code Online (Sandbox Code Playgroud)
random不满足我的需要,因为它不接受任何字符串作为输入/确定性参数.我正在寻找更像哈希函数的东西.
快速便携的解决方案:
from zlib import crc32
def bytes_to_float(b):
return float(crc32(b) & 0xffffffff) / 2**32
Run Code Online (Sandbox Code Playgroud)
这会将字节字符串转换为介于0.0和1.0之间的浮点数.如果您使用的是unicode字符串(例如,在python 3中),那么您需要对其进行编码:
def str_to_float(s, encoding="utf-8"):
return bytes_to_float(s.encode(encoding))
Run Code Online (Sandbox Code Playgroud)
例
>>> str_to_float(u"café")
0.5963937465567142
Run Code Online (Sandbox Code Playgroud)
这应该在任何机器和任何版本的python上给出相同的结果(在python 2.7和3.5上测试).
注意:这& 0xffffffff是为了保证unsigned int结果.这是必需的,因为根据python版本crc32(b)可能会返回有符号或无符号的int.
编辑
如果你想要比CRC32更"随机"的东西,你可以使用哈希函数,例如SHA256:
from struct import unpack
from hashlib import sha256
def bytes_to_float(b):
return float(unpack('L', sha256(b).digest()[:8])[0]) / 2**64
Run Code Online (Sandbox Code Playgroud)
性能测试
String length
Function 7 70 700 7000
b2f_crc32 0.34 0.38 0.87 5.59
b2f_md5 0.96 1.08 2.11 11.13
b2f_sha1 0.99 1.07 1.76 8.37
b2f_sha256 1.11 1.20 2.60 16.44
b2f_rnd 6.59 6.55 6.59 6.60
Run Code Online (Sandbox Code Playgroud)
基本上,CRC32解决方案是短串的最快速度(比@ user3030010的随机= RND解决方案快18倍).它大约比SHA256快3倍,无论字符串长度如何.SHA256比MD5慢,慢于SHA1(非常短的字符串除外).但是,RND选项不依赖于字符串长度,因此当字符串很长时,它可能是最快的选项(但请参阅我对@ user3030010的答案的评论):在我的计算机上,对于长度超过2500的字符串,它胜过SHA256字符,对于长度超过8000个字符的字符串,它胜过CRC32.
这是代码,使用timeit.timeit():
from __future__ import print_function
[...] # define b2f_crc32, b2f_md5 and so on.
for func in ("b2f_crc32", "b2f_md5", "b2f_sha1", "b2f_sha256", "b2f_rnd"):
for length in (7, 70, 700, 7000):
t = timeit('b2f(b"%s")'%(b"x"*length),
'from __main__ import %s as b2f' % func)
print("%.2f"%t, end="\t")
print()
Run Code Online (Sandbox Code Playgroud)
你可以尝试这样的事情:
import random
random.seed(hash(your_string))
random.random()
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
2024 次 |
| 最近记录: |