Apache Zeppelin是否足够稳定,可用于生产

Din*_*ari 3 production amazon-emr apache-spark apache-zeppelin

我正在使用AWS EMR集群。我一直在尝试使用Spark驱动程序和Apache Zeppelin Rest API运行作业。我曾与齐柏林飞艇(Zeppelin)合作过数百个临时工作,一点也不担心。因此,我正在考虑在生产中使用Zeppelin Rest API。将使用Rest API提交作业。

有人在生产中使用齐柏林飞艇遇到过稳定性问题吗?

Edg*_*rks 5

我有一个齐柏林飞艇在多用户环境(+/- 15个用户)中在生产环境中运行,但它不是很稳定。为了使其更加稳定,我在自己的节点上运行了齐柏林飞艇,不再在主节点上运行。

无论如何,我发现了以下问题:

  • 在0.7.2之前的版本中,Zeppelin创建了许多僵尸进程,这些进程在大量使用后会导致内存问题。
  • 用户库可能会破坏Zeppelin,在0.7.0之前的版本中就是这种情况。例如,杰克逊(Jackson)库使Zeppelin无法与spark解释器进行通信。在0.7.0及更高版本中,此问题已得到缓解。
  • 当有很多用户时会出现随机冻结。解决此问题的唯一方法是重新启动服务。(所有版本)
  • 有时,当用户启动其解释器且本地存储库为空时,齐柏林飞艇不会下载在解释器配置中指定的所有库。然后它将不再下载它们,减轻这种情况的唯一方法是删除解释器本地存储库的内容。(所有版本)
  • 有时笔记本上的更改无法保存,这会导致用户丢失代码。
  • 在0.6.0版中,Spark解释器共享一个上下文,这导致用户彼此覆盖变量。
  • 问题很难调试,日志记录还不够好。一些错误似乎破坏了日志记录,有时在调试模式下运行解释器可以解决此问题。

因此,我还不会把它放在人们依赖它的生产环境中。但是对于测试和数据发现,这将是很好的。齐柏林飞艇显然仍处于beta阶段。

另外,不要在主节点上运行它,而是设置您自己的实例并使其远程连接到集群。这使其更加稳定。将其放在强大的节点上,并在一夜之间重新启动。

我遇到的大多数错误都已经在Jira上了,开发人员正在努力使事情变得更好。每个版本的稳定性都越来越好,而且我看到每个版本的维护工作都在减少,因此它肯定有潜力。

  • 我在“婴儿生产”中也一直使用“ Zeppelin”,我可以说这里的这些评论似乎仍然成立。我很遗憾选择它作为我们共享分析的媒介。 (3认同)