哪一个选择Apache Oozie或Apache Airflow?需要比较

Vis*_*btc 16 jobs oozie airflow airflow-scheduler

我是工作调度员的新手,正在寻找一个在大数据集群上运行工作的人.我对可用的选择很困惑.发现Oozie与TWS,Autosys等现有产品相比有很多局限性.

在Oozie vs. Airflow上需要一些比较点.

感谢您的帮助.

Mic*_*oni 22

根据我的经验,Airflow是目前最好的数据管道.它最适合管理复杂,长期运行的工作流程.UI和模块化是最重要的.

空气流动

  • + DAG的Python代码
  • +为每个主要服务/云提供商提供连接器
  • +更多功能
  • +高级指标
  • +更好的UI和API
  • +能够创建极其复杂的工作流程
  • + Jinja Templating
  • =可以并行化
  • =与HDFS,HIVE,PIG等的本地连接.
  • =图表为DAG

Oozie的

  • ---用于DAG的Java或XML
  • - 难以建立复杂的管道
  • - 较小的,不太活跃的社区
  • - 更糟糕的WEB GUI
  • - Java API
  • =可以并行化
  • =与HDFS,HIVE,PIG等的本地连接.
  • =图表为DAG

如您所见,Airflow更易于使用(特别是在大型heteregenoeus团队中),比Oozie更多功能和强大的选择.

正如我所说:与Airflow一起去.

文章你可能会觉得有趣

  • 我对 Airflow 不太熟悉,但我可以添加一些需要考虑的事情: - 你见过 Oozie 的 **Fluent API** 吗?它可用于构建**复杂的管道**。- 您可以使用**HUE**作为**Web UI** https://github.com/cloudera/hue - 您需要**处理时区**吗?- 如何创建像 **bundles** 这样的 Oozie?- 如何实现 **Airflow 调度程序的 HA**?**SPoF**?- **Oozie** 被许多公司用于**大规模数据处理**。- Oozie 是为 Hadoop 设计的。Airflow 中的**委托代币**怎么样?- **SLA** 用于协调员和工作流程? (6认同)
  • Airflow的另一点:Google现在通过其新产品Composer提供使用Kubernetes分发的Airflow的完全托管版本。 (3认同)
  • 这在我看来是广告回应。真的是 Java '-' 吗?groovy、jruby、jython……以及其他基于 jvm 的 Lang 呢?To Mee 看起来比 python 更好。然而,python 是不错的语言。我同意它看起来有点过时,并且认为没有任何意义,至于业务应该无关紧要 (3认同)