dyk*_*ykw 6 hadoop hive apache-spark google-cloud-dataproc
输入数据:
实验一:
实验一结果:
实验二:
实验二结果:
Q1:知道 spark 如何确定读取 hive 表数据文件的任务数吗? 我通过将相同的数据放入 hdfs 来重复相同的实验,我得到了类似的结果。
我的理解是读取hive表文件的任务数应该与hdfs中的块数相同。Q2:正确吗? Q3:当数据在 gs 存储桶(而不是 hdfs)中时,这是否也正确?
提前致谢!
一个阶段的任务数量等于输入数据的分区数量,而分区数量又由数据大小和相关配置(dfs.blocksize(HDFS)、fs.gs.block.size(GCS)、、mapreduce.input.fileinputformat.split.minsize)决定mapreduce.input.fileinputformat.split.maxsize。对于涉及多个阶段的复杂查询,它是所有阶段任务数的总和。
HDFS 和 GCS 之间没有区别,只是它们对块大小使用不同的dfs.blocksize配置fs.gs.block.size。
请参阅以下相关问题:
| 归档时间: |
|
| 查看次数: |
202 次 |
| 最近记录: |