从Dataflow中的压缩文件中读取

G B*_*G B 2 google-cloud-dataflow

有没有办法(或任何类型的黑客)从压缩文件中读取输入数据?我的输入包含几百个文件,这些文件是用gzip压缩生成的,解压缩它们有点单调乏味.

谢谢,Genady

小智 6

现在,Dataflow支持从压缩文本源读取(截至此提交).具体来说,可以通过指定压缩类型来读取使用gzip和bzip2压缩的文件:

TextIO.Read.from(myFileName).withCompressionType(TextIO.CompressionType.GZIP)
Run Code Online (Sandbox Code Playgroud)

但是,如果文件具有.gz或.bz2扩展名,则您没有执行任何操作:默认压缩类型为AUTO,它检查文件扩展名以确定文件的正确压缩类型.这甚至适用于globs,其中由glob产生的文件可能是.gz,.bz2和未压缩的混合.