kubernetes与yarn/hadoop生态系统的火花

Pre*_*and 5 hadoop apache-spark kubernetes

我看到很多关于kubernetes火花的牵引力.在Hadoop上运行spark更好吗?这两种方法都以分布式方法运行.有人能帮助我理解kubernetes与Hadoop生态系统之间运行火花的区别/比较吗?

谢谢

mda*_*iel 11

有人能帮助我理解kubernetes与Hadoop生态系统之间运行火花的区别/比较吗?

预先警告这是一个理论上的答案,因为我不再运行Spark,因此我没有在kubernetes上运行Spark,但是我维护了一个Hadoop集群,现在是一个kubernetes集群,所以我可以说一些他们的分歧.

Kubernetes既是一个战斗强硬的资源管理者,也可以像合理的人所希望的那样访问所有组件.它提供了非常轻松的声明性资源限制(包括cpu和ram,甚至系统调用容量),非常非常无痛的日志出口(kubectl使用多种日志管理方法通过和退出集群返回用户),前所未有的度量标准收集和出口允许人们密切关注集群的健康状况和其中的工作,并且列表一直在继续.

但也许选择在kubernetes上运行Spark的最大原因与人们选择运行kubernetes的原因相同:共享资源而不是必须为不同的工作负载创建新机器(以及上述所有这些优点).因此,如果你有一个Spark集群,那么当一个作业没有主动运行时,它很可能会烧掉$$$,而kubernetes会在他们没有运行Spark的情况下高兴地将其他作业安排到那些节点上工作.是的,我知道Mesos和Yarn是"通用"集群资源管理器,但我的经验并不是他们像kubernetes一样无痛或无处不在.

我会欢迎有人发布反制叙述,或者为kubernetes贡献更多Spark实践经验,但是