如何生成100万个随机整数并将它们写入文件?

Alc*_*ott 4 python random file-io

我试图对我的外部排序算法进行一些测试,我认为我应该生成大量的随机数并将它们放入文件中.

我是这样做的:

import tempfile, random

nf = tempfile.NamedTemporaryFile(delete=False)
i = 0
while i < 1000:
    j = 0
    buf = ''
    while j < 1000:
        buf += str(random.randint(0, 1000))
        j += 1
    nf.write(buf)
    i += 1
Run Code Online (Sandbox Code Playgroud)

我想,我应该通过减少文件IO操作来加快生成过程,所以我用buf尽可能多的数字存储,然后将buf写入文件.

题:

我仍然感觉到,生成和编写过程很慢.

我弄错了吗?

编辑:

在C++中,我们可以简单地写一个intfloat成文件由<<converting them到字符串.

那么我们可以在Python中做同样的事情吗?我的意思是将整数写入文件而不将其转换为str.

Eri*_*got 7

操作系统已针对此类I/O操作进行了优化.因此,您可以直接将数字写入文件并获得非常好的速度:

import tempfile, random

with tempfile.NamedTemporaryFile(delete=False) as nf:
    for _ in xrange(1000000):  # xrange() is more efficient than range(), in Python 2
        nf.write(str(random.randint(0, 1000)))
Run Code Online (Sandbox Code Playgroud)

实际上,只有在大小优化的文件缓冲区已满时,才会将数字写入磁盘.问题中的代码和上面的代码在我的机器上同时进行.所以,我建议使用我更简单的代码并依赖操作系统的内置优化.

如果结果适合内存(这是100万个数字的情况),那么你确实可以通过创建最终字符串然后一次性写入来保存一些I/O操作:

with tempfile.NamedTemporaryFile(delete=False) as nf:
    nf.write(''.join(str(random.randint(0, 1000)) for _ in xrange(1000000)))
Run Code Online (Sandbox Code Playgroud)

第二种方法在我的计算机上快了30%(2.6秒而不是3.8秒),这可能要归功于单次写入调用(而不是一百万次write()调用 - 实际磁盘写入可能少得多).

你的问题的"许多大写"方法落在中间(3.1秒).但它可以改进:它更清晰,更Pythonic写这样:

import tempfile, random

with tempfile.NamedTemporaryFile(delete=False) as nf:
    for _ in xrange(1000):
        nf.write(''.join(str(random.randint(0, 1000)) for _ in xrange(1000)))
Run Code Online (Sandbox Code Playgroud)

这个解决方案相当于,但比原始问题中的代码更快(我机器上的2.6秒,而不是3.8秒).

总之,上面的第一个简单方法对您来说可能足够快.如果不是,并且整个文件可以适合内存,第二种方法既快速又简单.否则,你最初的想法(更少的写入,更大的块)是好的,因为它与"单写"方法一样快,并且仍然非常简单,如上所述.