什么是apache zeppelin?

Far*_*que 11 bigdata apache-spark apache-zeppelin

正如我们经常听到的apache zeppelin那样,我们脑海中浮现的问题很少:

  1. 什么是Apache zeppelin?
  2. 它为Big数据生态系统增加了什么新的和/或额外的?
  3. 它是否取代了大数据生态系统中已存在的一些框架/工具?

Ram*_*ram 12

简答:基于Web的笔记本电脑,支持SQL,Scala等数据驱动的交互式数据分析和协作文档.

答案很长:

  1. Zeppelin笔记本为您提供了一种简单,直接的方式来在Web笔记本中执行任意代码.您可以执行Scala,SQL,甚至可以安排作业(通过cron)以定期运行.

  2. 首先,在同一笔记本中混合语言更容易.你可以做一些SQL,scala,然后降价来将它们全部记录下来.您还可以轻松地将笔记本转换为演示文稿样式 - 可以呈现给管理员或在仪表板中使用.

  3. Jupyter(以前称为IPython)笔记本在Python社区中非常流行.我不能使用"替换"这个词而不是我会使用类似的......

还有更多.

  • Zeppelin支持Spark,PySpark,Spark R,Spark SQL和依赖加载器.

  • Zeppelin允许您无缝连接任何JDBC数据源.Postgresql,Mysql,MariaDB,Redshift,Apache Hive等.

  • Matplotlib,Conda,Pandas SQL和PySpark集成支持Python.


Roc*_*ang 9

Zeppelin是一个很棒的工具.它允许在单个笔记本中使用不同的后端/语言.这是一个简单的用例.

  1. 使用Markdown写一些描述
  2. 使用Shell准备数据.例如,使用curl/wget下载文件,注入HDFS
  3. 使用Spark进行数据分析
  4. 使用SQL进行简单可视化
  5. 使用Shell导出结果
  6. 发布带有链接的图表

所有这些步骤都可以在一个笔记本中完成.而且在单个笔记本中还可以做得更多.

Zeppelin非常接近Databricks.com在线解决方案