合并预先排序的文件而不将所有内容读入内存

Question

合并预先排序的文件而不将所有内容读入内存

我有一个日志文件列表,其中每个文件中的每一行都有一个时间戳,并且行在每个文件中按升序排列.不同的文件可以有重叠的时间范围,我的目标是将它们组合成一个大文件,按时间戳排序.在排序中可能存在联系,在这种情况下,我希望下一行来自我输入列表中首先列出的任何文件.

我已经看到了如何使用fileinput(参见此处)的示例,但这似乎将所有文件读入内存.由于我的文件很大,这将是一个问题.因为我的文件是预先排序的,所以似乎应该有一种方法来合并它们,使用的方法只需要考虑每个文件中最新的未探索行.

Answer 1

小智 15

如果有heapq.merge()标准库,为什么要自己滚动？不幸的是,它没有提供一个关键的论点 - 你必须做装饰 - 合并 - 不自然的舞蹈你自己:

from itertools import imap
from operator import itemgetter
import heapq

def extract_timestamp(line):
    """Extract timestamp and convert to a form that gives the
    expected result in a comparison
    """
    return line.split()[1] # for example

with open("log1.txt") as f1, open("log2.txt") as f2:
    sources = [f1, f2]
    with open("merged.txt", "w") as dest:
        decorated = [
            ((extract_timestamp(line), line) for line in f)
            for f in sources]
        merged = heapq.merge(*decorated)
        undecorated = imap(itemgetter(-1), merged)
        dest.writelines(undecorated)

Run Code Online (Sandbox Code Playgroud)

上面的每一步都是"懒惰".因为我避免file.readlines()文件中的行根据需要读取.同样,装饰过程使用生成器表达式而不是list-comps.heapq.merge()也是懒惰的 - 每个输入迭代器需要一个项目来进行必要的比较.最后我正在使用itertools.imap(),map()的惰性变体内置为undecorate.

(在Python 3中map()变得很懒,所以你可以使用那个)

这个解决方案不会导致一次驻留在内存中的所有行吗？ (2认同)

归档时间：	13 年，9 月前
查看次数：	3431 次
最近记录：	13 年，9 月前