Spark on Yarn:如何防止火花用户缓存的增长非常快

Kes*_*shi 6 hadoop hadoop-yarn apache-spark

就空间利用率而言,Spark用户缓存似乎增长得非常快.我有一个HDP 2.3.4设置,配置为使用本地dirs,这是本地的单个从节点.

在实例上设置为本地使用的从属节点磁盘分区很快就被填满了.我将local-dirs位置移动到非DFS空间分区中的HDFS内.这有助于显着扩展我的应用程序,但似乎它只是在我的集群处理超过100M事件时将问题转移到更晚的阶段.在这个阶段,HDFS利用率接近90%,大部分利用率来自HDFS的非DFS部分(假设没有复制?).这会导致所有纱线节点管理器停止并且作业失败.

问题:

  • 有没有办法提高用户缓存快速到期的速度?
  • 将用户缓存添加到HDFS是一个好主意吗?
  • 缓存空间利用率似乎不仅仅是用于进行分析的数据.有没有其他原因可以迅速增长?