哪个开源框架最适合 ETL Apache Airflow 或 Apache Beam?

Sar*_*j K 0 etl apache-spark pyspark airflow apache-beam

我正在尝试使用开源框架进行 ETL,我听说过两种东西 Apache Beam 和 Apache Airflow,其中一种最适合整个 ETL 或 ELT,例如 Talend、Azure 数据工厂等,事实上,我尝试使用云数据仓库(redshift、azure 数据仓库、雪花等)完成所有工作,哪一个适合此类工作,如果我对这两个框架进行一些比较,那就太好了。提前致谢。

Duy*_*yen 5

Apache Airflow 不是 ETL 框架,它是调度和监控工作流应用程序,它将调度和监控您的 ETL 管道。Apache Beam 是用于定义数据处理工作流程的统一模型。

这意味着您的 ETL 管道将使用 Apache Beam 编写,Airflow 将触发和调度这些管道。