san*_*ayr 22 airflow aws-step-functions
我正在开发一个项目,该项目从 AWS S3 获取一组输入数据,对其进行预处理和分割,启动 10K 批处理容器以在 AWS Batch 上并行处理分割数据,对数据进行后聚合并推送它到 S3。
我已经从其他项目中获得了 Airflow + Batch 的软件模式,但还没有处理 10k 并行任务的缩放因子。Airflow 很好,因为我可以查看哪些任务失败并在调试后重试任务。但是在一个 Airflow EC2 实例上处理这么多任务似乎是一个障碍。另一种选择是让一项任务启动 10k 容器并从那里监控它。
我没有使用 Step Functions 的经验,但听说它是 AWS 的 Airflow。Step Functions + Batch 在线看起来有很多模式。Step Functions 似乎是检查我的用例的好方法吗?您对失败的工作/重试任务的能力是否与使用 Airflow 获得相同的见解?
ams*_*msh 53
我曾在 Apache Airflow 和 AWS Step Functions 上工作过,以下是一些见解:
总的来说,我看到了使用 AWS Step Functions 的更多优势。您必须根据您的用例考虑这两种服务的维护成本和开发成本。
更新(适用于 Apache Airflow 服务的 AWS 托管工作流):
我在个人和工作项目中使用了 Airflow 和 Step Functions。
还有一些有关 Airflow 与 Step 函数使用的信息
| 归档时间: |
|
| 查看次数: |
9981 次 |
| 最近记录: |