当我在本地模式spark中编写scala程序时,代码类似于RDD.map(x => function()).collect,控制台中很长时间没有日志输出,我猜它卡住了。于是我把动作collect改成了count,整个执行很快就完成了。另外,map要收集的阶段产生的记录很少collect,因此在将结果发送回驱动程序时不会由网络传输引起问题。
RDD.map(x => function()).collect
collect
count
map
谁能知道原因或遇到过类似的问题?
scala apache-spark
apache-spark ×1
scala ×1