对于包含重新分区的Spark作业,"尚未启动任务"

jav*_*dba 6 apache-spark pyspark

在为" pyspark"工作" 暂时还没有完成任务"之后,我已经抓住了一段时间,这个问题被隔离为:

作品:

ssc = HiveContext(sc)
sqlRdd = ssc.sql(someSql)
sqlRdd.collect()
Run Code Online (Sandbox Code Playgroud)

添加repartition()并挂起"尚未启动任务":

ssc = HiveContext(sc)
sqlRdd = ssc.sql(someSql).repartition(2)
sqlRdd.collect()
Run Code Online (Sandbox Code Playgroud)

这是与CDH5捆绑在一起的1.2.0