Jac*_*ski 5 google-cloud-storage apache-spark apache-spark-sql
写入对象存储的推荐设置如下:
对于其一致性模型意味着基于重命名的提交是安全的对象存储,请使用
FileOutputCommitterv2 算法来提高性能;v1 为了安全。
使用 v2 算法写入Google Cloud Storage是否安全?
算法“不安全”到底意味着什么?用于确定我是否处于 v2不安全情况的具体标准是什么?
啊。我写了一些文档。以及您引用的其中一篇论文。
Apache Hadoop 3.3.5 在MAPREDUCE-7341中添加了中间清单提交者,以确保 abfs 和 gcs 的正确性、性能和可扩展性。(它也适用于 hdfs、FWIW)。它通过列出任务尝试的输出目录树来提交任务,并将要重命名的文件列表保存到清单文件中,该清单文件是原子提交的。作业提交是一系列简单的
这对于 GCS 来说是正确的,因为它依赖于单个文件重命名作为唯一的原子操作。对于 ABFS,它增加了对 IOPS 速率限制的支持,以及当您在同一秒内尝试数千次重命名时 abfs 失败的恢复能力。这些问题的例子之一只在生产中出现,而不是在基准测试中出现。
此提交程序随 Hadoop 3.3.5 一起提供,并且不会向后移植 - 如果您想使用它,请使用此版本或更高版本的 hadoop 二进制文件。
| 归档时间: |
|
| 查看次数: |
990 次 |
| 最近记录: |