Alc*_*ott 4 python random file-io
我试图对我的外部排序算法进行一些测试,我认为我应该生成大量的随机数并将它们放入文件中.
我是这样做的:
import tempfile, random
nf = tempfile.NamedTemporaryFile(delete=False)
i = 0
while i < 1000:
j = 0
buf = ''
while j < 1000:
buf += str(random.randint(0, 1000))
j += 1
nf.write(buf)
i += 1
Run Code Online (Sandbox Code Playgroud)
我想,我应该通过减少文件IO操作来加快生成过程,所以我用buf
尽可能多的数字存储,然后将buf写入文件.
题:
我仍然感觉到,生成和编写过程很慢.
我弄错了吗?
编辑:
在C++中,我们可以简单地写一个int
或float
成文件由<<
无converting them
到字符串.
那么我们可以在Python中做同样的事情吗?我的意思是将整数写入文件而不将其转换为str.
操作系统已针对此类I/O操作进行了优化.因此,您可以直接将数字写入文件并获得非常好的速度:
import tempfile, random
with tempfile.NamedTemporaryFile(delete=False) as nf:
for _ in xrange(1000000): # xrange() is more efficient than range(), in Python 2
nf.write(str(random.randint(0, 1000)))
Run Code Online (Sandbox Code Playgroud)
实际上,只有在大小优化的文件缓冲区已满时,才会将数字写入磁盘.问题中的代码和上面的代码在我的机器上同时进行.所以,我建议使用我更简单的代码并依赖操作系统的内置优化.
如果结果适合内存(这是100万个数字的情况),那么你确实可以通过创建最终字符串然后一次性写入来保存一些I/O操作:
with tempfile.NamedTemporaryFile(delete=False) as nf:
nf.write(''.join(str(random.randint(0, 1000)) for _ in xrange(1000000)))
Run Code Online (Sandbox Code Playgroud)
第二种方法在我的计算机上快了30%(2.6秒而不是3.8秒),这可能要归功于单次写入调用(而不是一百万次write()
调用 - 实际磁盘写入可能少得多).
你的问题的"许多大写"方法落在中间(3.1秒).但它可以改进:它更清晰,更Pythonic写这样:
import tempfile, random
with tempfile.NamedTemporaryFile(delete=False) as nf:
for _ in xrange(1000):
nf.write(''.join(str(random.randint(0, 1000)) for _ in xrange(1000)))
Run Code Online (Sandbox Code Playgroud)
这个解决方案相当于,但比原始问题中的代码更快(我机器上的2.6秒,而不是3.8秒).
总之,上面的第一个简单方法对您来说可能足够快.如果不是,并且整个文件可以适合内存,第二种方法既快速又简单.否则,你最初的想法(更少的写入,更大的块)是好的,因为它与"单写"方法一样快,并且仍然非常简单,如上所述.
归档时间: |
|
查看次数: |
3405 次 |
最近记录: |