合并Google云端存储中的32个以上文件

poi*_*rez 5 google-cloud-storage google-compute-engine apache-spark

我在Google Compute Engine上运行了一个Apache Spark脚本,用于输出Google云端存储.我的Cloud Storage文件夹中有300多个part-00XXX文件.我想合并它们.

我试过了:

poiuytrez@spark-m:~$ gsutil compose gs://mybucket/data/* gs://mybucket/myfile.csv
Run Code Online (Sandbox Code Playgroud)

但我得到了这个错误:

CommandException: "compose" called with too many component objects. Limit is 32.
Run Code Online (Sandbox Code Playgroud)

合并所有这些部分文件的解决方案的任何想法?

Zac*_*ilt 5

您只能在一个请求中组合32个对象,但复合对象最多可包含1024个组件.特别是,您可以将对象0-31组合成某个对象0',32-63组成1'等等 - 然后可以通过组合(0',1',...,地板)再次组合这些复合对象中的每一个(32分之300)').

  • 如果有人编写脚本来做到这一点,请不要犹豫让我知道。 (2认同)