小编Ali*_*Ali的帖子

Spark 2.2 数据集巨大时 Join 失败

我目前在尝试使用Spark DataFrame API将一个巨大的数据集（654 GB）与一个较小的数据集（535 MB）（内部）连接时遇到问题。

我使用 Broadcast() 函数将较小的数据集广播到工作节点。

我无法在这两个数据集之间进行连接。这是我收到的错误示例：

19/04/26 19:39:07 INFO executor.CoarseGrainedExecutorBackend: Got assigned task 1315 19/04/26 19:39:07 INFO executor.Executor: Running task 25.1 in stage 13.0 (TID 1315) 19/04/26 19:39:07 INFO output.FileOutputCommitter: File Output Committer Algorithm version is 1 19/04/26 19:39:07 INFO datasources.SQLHadoopMapReduceCommitProtocol: Using output committer class org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter 19/04/26 19:39:07 INFO datasources.FileScanRDD: Reading File path: SOMEFILEPATH, range: 3087007744-3221225472, partition values: [empty row] 19/04/26 19:39:17 INFO datasources.FileScanRDD: Reading File path: SOMEFILEPATH, range: 15971909632-16106127360, partition values: [empty row] 19/04/26 …
Run Code Online (Sandbox Code Playgroud)

join cluster-computing hdfs apache-spark apache-spark-sql

Ali*_*Ali

2019 06-07

3
推荐指数

1
解决办法

5148
查看次数

标签统计

apache-spark ×1

apache-spark-sql ×1

cluster-computing ×1

hdfs ×1

join ×1

Spark 2.2 数据集巨大时 Join 失败

标签 统计

小编Ali_Ali的帖子

标签统计