气流：为每个文件运行 DAG 的正确方法

Question

我有以下任务要解决：

文件不定期地通过端点发送并存储在本地。我需要为每个文件触发 DAG 运行。对于每个文件，将执行相同的任务

总体流程如下：对于每个文件，运行任务 A->B->C->D

正在批量处理文件。虽然这项任务对我来说似乎微不足道，但我找到了几种方法来做到这一点，我很困惑哪一个是“合适的”（如果有的话）。

第一种模式：使用实验性 REST API 来触发 dag。

也就是说，通过将 file_id 作为 conf 传递，公开一个 Web 服务，该服务摄取请求和文件，将其存储到文件夹中，并使用实验性 REST api触发 DAG

缺点：REST apis 仍然是实验性的，不确定 Airflow 如何处理一次有许多请求的负载测试（这不应该发生，但是，如果发生了怎么办？）

始终使用与之前描述的相同的 ws，但这次它只是存储文件。然后我们有：

缺点：需要避免将相同的文件发送到两个不同的 DAG 运行。例子：

文件夹 x.json 中的文件传感器找到 x，触发 DAG (1)

传感器返回并重新安排。如果 DAG (1) 未处理/移动文件，则传感器 DAG 可能会使用相同的文件重新安排新的 DAG 运行。这是不需要的。

正如在这个问题中看到的那样。

缺点：这可以工作，但是我不喜欢的是 UI 可能会变得一团糟，因为每次 DAG 运行看起来都不一样，但它会随着正在处理的文件数量而变化。此外，如果有 1000 个文件要处理，运行可能会很难阅读

我还不确定它们是如何完全工作的，因为我已经看到不鼓励它们（最后），但是应该可以为每个文件生成一个 subdag 并让它运行。类似于这个问题。

缺点：似乎 subdags 只能与顺序执行器一起使用。

我是否错过了一些东西并过度思考了（在我看来）应该非常直接的东西？谢谢

Answer 1

我知道我迟到了，但我会选择第二种模式：“2 个 dags。一个用 TriggerDagOperator 感知和触发，一个处理”，因为：

重命名和/或移动文件是在每个 ETL 中处理文件的一种非常标准的方法。

Answer 2

其中使用了一个新的运算符，即 TriggerMultiDagRunOperator。我认为这适合我的需求。