dyk*_*ykw 6 hadoop hive apache-spark google-cloud-dataproc
输入数据:
实验一:
实验一结果:
实验二:
实验二结果:
Q1:知道 spark 如何确定读取 hive 表数据文件的任务数吗? 我通过将相同的数据放入 hdfs 来重复相同的实验,我得到了类似的结果。
我的理解是读取hive表文件的任务数应该与hdfs中的块数相同。Q2:正确吗? Q3:当数据在 gs 存储桶(而不是 hdfs)中时,这是否也正确?
提前致谢!
一个阶段的任务数量等于输入数据的分区数量,而分区数量又由数据大小和相关配置(dfs.blocksize
(HDFS)、fs.gs.block.size
(GCS)、、mapreduce.input.fileinputformat.split.minsize
)决定mapreduce.input.fileinputformat.split.maxsize
。对于涉及多个阶段的复杂查询,它是所有阶段任务数的总和。
HDFS 和 GCS 之间没有区别,只是它们对块大小使用不同的dfs.blocksize
配置fs.gs.block.size
。
请参阅以下相关问题:
归档时间: |
|
查看次数: |
202 次 |
最近记录: |