小编gre*_*tji的帖子

收集和计数操作有什么区别?

当我在本地模式spark中编写scala程序时,代码类似于RDD.map(x => function()).collect,控制台中很长时间没有日志输出,我猜它卡住了。于是我把动作collect改成了count,整个执行很快就完成了。另外,map要收集的阶段产生的记录很少collect,因此在将结果发送回驱动程序时不会由网络传输引起问题。

谁能知道原因或遇到过类似的问题?

scala apache-spark

1
推荐指数
1
解决办法
3770
查看次数

标签 统计

apache-spark ×1

scala ×1