Apache AirFlow 如何实现可扩展性?

Paw*_*eep 2 hive apache-spark airflow

我看到,Airflow 中的许多操作员在将数据上传到目标系统之前将数据存储在本地。这意味着工作节点正在做大量的工作,以防数据巨大。

Airbnb(开源 Airflow 的公司)早在 2015 年就表示,他们在 Airflow 集群中只有 6 个节点,可提供 5000 个作业。

我在这里错过了什么吗?

小智 5

Apache Airflow 的主要目的是任务调度和监控。它不是作为通用数据处理引擎设计的。与其说是 Apache Spark 或 Apache Hive,不如说是 Oozie 的替代品。

虽然 Airflow 可以扩展它的工作人员(使用 Mesos、RabbitMQ / Celery),但繁重的工作仍然由分析系统执行。因此,例如 Airflow 可以管理您的 Spark 作业和 Druid 查询,处理更改等。