生成zip流而不使用临时文件

Bas*_*sic 7 python compression zip stream python-3.x

我有一个python方法,它需要从API 收集大量数据,将其格式化为CSV,压缩它并将结果流回来.

我一直在谷歌搜索,我可以找到的每个解决方案要么写入临时文件或将整个存档保存在内存中.

内存绝对不是一个选项,因为我会很快得到OOM.写入临时文件有很多与之相关的问题(此框目前仅使用磁盘进行日志,下载开始前的更长时间,文件清理问题等等).更不用说这只是令人讨厌的事实.

我正在寻找一个可以让我做类似...的图书馆

C = Compressor(outputstream)
C.BeginFile('Data.csv')
for D in Api.StreamResults():
    C.Write(D)
C.CloseFile()
C.Close()
Run Code Online (Sandbox Code Playgroud)

换句话说,当我写入数据时,将写入输出流的东西.

我已经设法在.Net和PHP中做到了这一点 - 但我不知道如何在Python中处理它.

通过"大量"数据来看待事物,我的意思是我需要能够处理高达~10 Gb的(原始纯文本)数据.这是大数据系统的导出/转储过程的一部分.

gon*_*opp 7

正如gzip模块文档所述,您可以将类文件对象传递给GzipFile构造函数.由于python是duck-typed,你可以自由地实现自己的流,如下所示:

import sys
from gzip import GzipFile

class MyStream(object):
    def write(self, data):
        #write to your stream...
        sys.stdout.write(data) #stdout, for example

gz= GzipFile( fileobj=MyStream(), mode='w'  )
gz.write("something")
Run Code Online (Sandbox Code Playgroud)


tde*_*ney 5

@ goncaplopp的答案很棒,但如果你在外部运行gzip,你可以实现更多的并行性.由于您正在收集大量数据,因此可能值得付出额外的努力.你需要为windows找到你自己的压缩例程(有几个gzip实现,但像7z这样的东西也可以工作).您还可以尝试使用压缩比gzip更多的lz之类的东西,具体取决于您在系统中需要优化的其他内容.

import subprocess as subp
import os

class GZipWriter(object):

    def __init__(self, filename):
        self.filename = filename
        self.fp = None

    def __enter__(self):
        self.fp = open(self.filename, 'wb')
        self.proc = subp.Popen(['gzip'], stdin=subp.PIPE, stdout=self.fp)
        return self

    def __exit__(self, type, value, traceback):
        self.close()
        if type:
            os.remove(self.filename)

    def close(self):
        if self.fp:
            self.fp.close()
            self.fp = None

    def write(self, data):
        self.proc.stdin.write(data)

with GZipWriter('sometempfile') as gz:
    for i in range(10):
        gz.write('a'*80+'\n')
Run Code Online (Sandbox Code Playgroud)

  • @msw - 谁说过没有并行化的话?问题没有提到内联的任何要求.它确实提到要处理大量数据.在对其他答案给予赞誉之后,我给出了一个替代实现,并说明了一些优点.这种类型的管道在Linux世界中非常普遍.这里没有任何惊天动地的事情. (7认同)