输入数据:
实验一:
实验一结果:
实验二:
实验二结果:
Q1:知道 spark 如何确定读取 hive 表数据文件的任务数吗? 我通过将相同的数据放入 hdfs 来重复相同的实验,我得到了类似的结果。
我的理解是读取hive表文件的任务数应该与hdfs中的块数相同。Q2:正确吗? Q3:当数据在 gs 存储桶(而不是 hdfs)中时,这是否也正确?
提前致谢!
我对 Spark 数据帧分区数量有疑问。
如果我有 Hive 表(员工),其中包含列(姓名、年龄、ID、位置)。
CREATE TABLE employee (name String, age String, id Int) PARTITIONED BY (location String);
如果员工表有 10 个不同的位置。所以数据在HDFS中会被划分为10个分区。
如果我通过读取 Hive 表(员工)的全部数据来创建 Spark 数据框(df)。
Spark 将为一个数据帧(df)创建多少个分区?
df.rdd.partitions.size = ??