hve*_*iga 4 performance distributed-computing cluster-computing bigdata apache-spark
我有一个大型数据集,我试图用Apache Spark运行(大约5TB).我注意到,当作业开始时,它会非常快速地检索数据,并且作业的第一阶段(map转换)非常快速地完成.
但是,在处理了大约500GB的数据之后,这种map转换开始变慢,一些任务需要几分钟甚至几小时才能完成.
我正在使用10台机器,122 GB和16CPU,我正在为每个工作节点分配所有资源.我想过增加机器的数量,但还有其他的东西我可能会丢失吗?
我尝试了一小部分数据集(30 GB),似乎工作正常.
似乎舞台在某些节点本地完成比其他节点更快.从这个观察结果来看,这是我会尝试的:
| 归档时间: |
|
| 查看次数: |
3163 次 |
| 最近记录: |