Spark：数据帧序列化

use*_*243 5 serialization scala kryo apache-spark spark-dataframe

我有 2 个关于 Spark 序列化的问题，我无法通过谷歌搜索找到答案。

如何打印出当前使用的序列化程序的名称；我想知道 spark.serializer 是 Java 还是 Kryo。
我有以下应该使用 Kryo 序列化的代码；用于数据帧的内存大小变为 21meg，这是我在没有序列化的情况下缓存时的四分之一；但是当我删除 Kryo 配置时，大小仍然是 21meg。这是否意味着 Kryo 从未被使用过？是不是因为数据帧中的记录只是行，所以 Java 和 Kryo 序列化的大小相同？
```
val conf = new SparkConf()    
conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")    
conf.set("spark.kryo.registrationRequired", "false")    
val spark = SparkSession.builder.master("local[*]").config(conf)
       .appName("KryoWithRegistrationNOTRequired").getOrCreate    
val df = spark.read.csv("09-MajesticMillion.csv")    
df.persist(StorageLevel.MEMORY_ONLY_SER)
```
Run Code Online (Sandbox Code Playgroud)

这是否意味着 Kryo 从一开始就没有被使用过？

正是这个意思。Spark SQL（Dataset）使用它自己的列式存储来进行缓存。未使用 Java 或 Kryo 序列化，因此spark.serializer完全没有影响。

感谢您的回答; 您能给我推荐一些解释这一点的来源或文档吗？ (6认同)

归档时间：	8 年前
查看次数：	3747 次
最近记录：	8 年前

使用多个元素属性反序列化XML文件 - 属性不反序列化 19

如何在同一个Spark项目中同时使用Scala和Python？ 15

Spark如何使用带有Join的UDF 9

使用Spark Graphframes进行分区 8

将毫秒级时间戳反序列化为java.time.Instant 7

了解DAG的火花 6

pyspark.ml 管道：基本预处理任务是否需要自定义转换器？ 5

通过最新时间戳对Spark DataFrame中的行进行重复数据删除 1

spark中的dataframe.show()和dataframe.take()有什么区别？为了提高性能，我们需要增加什么？ 1

写一个 spark 数据帧或写一个胶水动态帧，AWS Glue 中哪个选项更好？ 1

如何在单个表达式中合并两个词典？ 4349

如何列出目录的所有文件？ 3474

如何检测元素外部的单击？ 2367

在JavaScript中定义枚举的首选语法是什么？ 1982

删除文件或文件夹 1910

如何在Bash中将变量设置为命令的输出？ 1513

Git push需要用户名和密码 1327

使用PHP"注意:未定义的变量","注意:未定义的索引"和"通知:未定义的偏移量" 1119

Django会扩展吗？ 1101

iOS 6上的Safari缓存$ .ajax结果吗？ 1057