对于包含重新分区的Spark作业,"尚未启动任务"

jav*_*dba 6 apache-spark pyspark

在为" pyspark"工作" 暂时还没有完成任务"之后,我已经抓住了一段时间,这个问题被隔离为:

作品:

ssc = HiveContext(sc)
sqlRdd = ssc.sql(someSql)
sqlRdd.collect()

Run Code Online (Sandbox Code Playgroud)

添加repartition()并挂起"尚未启动任务":

ssc = HiveContext(sc)
sqlRdd = ssc.sql(someSql).repartition(2)
sqlRdd.collect()

Run Code Online (Sandbox Code Playgroud)

这是与CDH5捆绑在一起的1.2.0

归档时间：	10 年，7 月前
查看次数：	786 次
最近记录：	10 年，7 月前

Pyspark：在数据帧的不同组上应用 kmeans 13

PySpark从本地函数广播变量 11

Spark 按列重新分区，每列具有动态分区数 6

Spark 3.0出现以下问题如何解决？无法创建托管表。关联位置已存在。； 6

在创建元组的子类时调用__new__ 5

如何在新的Spark会话中再次读取Spark Table？ 5

Spark Scala 流式 CSV 4

Spark 2：调用SparkSession enableHiveSupport（）时如何工作 4

Stream-Static Join：如何定期刷新（非持久化/持久化）静态数据帧 4

了解 spark.yarn.executor.memoryOverhead 2

使用Git将特定文件重置或还原到特定版本？ 4255

如何使用JavaScript漂亮地打印JSON？ 2222

一次捕获多个异常？ 2015

什么是C ??!??!操作员呢？ 1911

Bower和npm有什么区别？ 1723

如何使用Bash将stdout和stderr重定向并附加到文件中？ 1440

.gitignore被Git忽略了 1407

如何在Git中有选择地合并或选择来自另一个分支的更改？ 1374

SQL仅选择列上具有最大值的行 1142

NP,NP-Complete和NP-Hard有什么区别？ 1064