关于 Spark UnsafeShuffleWriter

zcb*_*zfl 5 serialization scala apache-spark

我有两个关于 UnsafeShuffleWriter 的问题，UnsafeShuffleWriter当满足以下所有三个条件时将使用：

shuffle 依赖项不指定聚合或输出排序。
shuffle 序列化器支持序列化值的重定位（目前 KryoSerializer 和 Spark SQL 的自定义序列化器支持此功能）。
shuffle 产生少于 16777216 个输出分区。

我对前两个条件感到困惑。

为什么 shuffle 依赖项不指定聚合或输出排序？我觉得用UnsafeShuffleWritermapSideCombine=false还是挺好的，不管是指定聚合还是排序。
为什么序列化器必须支持序列化值的重定位，重定位将在何处使用？

归档时间：	8 年，10 月前
查看次数：	129 次
最近记录：	8 年，10 月前

(可选)将项添加到Scala Map 27

()=> Int和Unit => Int之间有什么区别？什么是Scala中的"()"类型？ 12

Hive UDF用于选择除某些列之外的所有列 10

你能用Guava复制Clojure的(分区)或Scala的sliding()函数吗？ 7

如何序列化ObservableList 7

Spark2.2.1兼容Jackson版本2.8.8 7

如何用Scala中的map替换yield？ 6

store在Rx中检索IObservable订阅状态 6

如何查询数据框,其中StringType的1个字段在Spark SQL中具有json值 5

Parquet 文件大小如何随 Spark 数据集中的计数变化 1

为什么"使用命名空间std"被认为是不好的做法？ 2486

将字符串转换为datetime 2035

如何使div不大于其内容？ 1960

从Git提交中删除文件 1484

如何确定Python变量的类型？ 1437

如何删除文本/输入框周围的边框(轮廓)？(铬) 1208

URL.Combine的URL？ 1186

如何从Git的暂存区域中删除单个文件,但不将其从索引中删除或撤消对文件本身的更改？ 1177

创建一个带参数的Bash别名？ 1164

为PHP密码保护哈希和盐 1142