我看到,Airflow 中的许多操作员在将数据上传到目标系统之前将数据存储在本地。这意味着工作节点正在做大量的工作,以防数据巨大。
Airbnb(开源 Airflow 的公司)早在 2015 年就表示,他们在 Airflow 集群中只有 6 个节点,可提供 5000 个作业。
我在这里错过了什么吗?
hive apache-spark airflow
airflow ×1
apache-spark ×1
hive ×1