相关疑难解决方法(0)

输入数据：

实验一：

实验一结果：

实验二：

实验二结果：

Q1：知道 spark 如何确定读取 hive 表数据文件的任务数吗？ 我通过将相同的数据放入 hdfs 来重复相同的实验，我得到了类似的结果。

我的理解是读取hive表文件的任务数应该与hdfs中的块数相同。Q2：正确吗？ Q3：当数据在 gs 存储桶（而不是 hdfs）中时，这是否也正确？

提前致谢！

6
推荐指数

1
解决办法

202
查看次数

我对 Spark 数据帧分区数量有疑问。

如果我有 Hive 表（员工），其中包含列（姓名、年龄、ID、位置）。

CREATE TABLE employee (name String, age String, id Int) PARTITIONED BY (location String);

如果员工表有 10 个不同的位置。所以数据在HDFS中会被划分为10个分区。

如果我通过读取 Hive 表（员工）的全部数据来创建 Spark 数据框（df）。

Spark 将为一个数据帧（df）创建多少个分区？

df.rdd.partitions.size = ??

5
推荐指数

1
解决办法

2243
查看次数