poi*_*rez 5 google-cloud-storage google-compute-engine apache-spark
我在Google Compute Engine上运行了一个Apache Spark脚本,用于输出Google云端存储.我的Cloud Storage文件夹中有300多个part-00XXX文件.我想合并它们.
我试过了:
poiuytrez@spark-m:~$ gsutil compose gs://mybucket/data/* gs://mybucket/myfile.csv
Run Code Online (Sandbox Code Playgroud)
但我得到了这个错误:
CommandException: "compose" called with too many component objects. Limit is 32.
Run Code Online (Sandbox Code Playgroud)
合并所有这些部分文件的解决方案的任何想法?
您只能在一个请求中组合32个对象,但复合对象最多可包含1024个组件.特别是,您可以将对象0-31组合成某个对象0',32-63组成1'等等 - 然后可以通过组合(0',1',...,地板)再次组合这些复合对象中的每一个(32分之300)').
| 归档时间: |
|
| 查看次数: |
707 次 |
| 最近记录: |