气流:气流Web服务器,气流调度程序和气流工作者到底做什么?

Mar*_*ein 5 webserver scheduler worker airflow

我已经与Airflow合作了一段时间,这是由一位同事建立的。最近,我遇到了几个错误,这需要我进一步了解如何解决Airflow中的某些问题。

我确实了解这3个流程是什么,我只是不了解运行它们时发生的潜在事件。当我运行其中一个命令时会发生什么?之后我可以在某处看到它们正在运行吗?如果我运行这些命令之一,这是否会覆盖旧的Web服务器/调度程序/工作器或添加一个新命令?

而且,例如,如果我运行airflow webserver,屏幕上会显示一些正在发生的事情。我可以简单地通过按CTRL + C摆脱这一点吗?因为当我这样做时,它会说Worker exitingShutting down: Master。这是否意味着我要关闭所有内容?那我该如何离开网络服务器屏幕呢?

cwu*_*rtz 9

每个进程在运行时都会做他们被构建要做的事情(网络服务器提供一个 UI,调度程序确定什么时候需要运行,工作人员实际运行任务)。

我认为您的困惑在于您可能将它们视为告诉某种“Airflow 服务”做某事的命令,但它们都是启动进程以执行某些操作的独立命令。IE。从零开始,你运行airflow scheduler:现在你有一个调度程序正在运行。运行airflow webserver:现在你有一个网络服务器正在运行。当您运行时airflow webserver,它正在启动一个 python Flask 应用程序。当该进程运行时,网络服务器正在运行,如果你杀死命令,它就会关闭。

所有三个都必须运行以让气流作为一个整体才能工作(假设您正在使用需要工作人员的执行程序)。您应该只运行一个调度程序,但是如果您要运行两个进程airflow webserver(忽略端口冲突,那么您将使用相同的元数据数据库运行两个单独的 http 服务器。工作程序有点不同,因为您可能需要多个工作程序进程正在运行,因此您可以同时执行更多任务。因此,如果您创建多个airflow worker进程,最终将有多个进程从队列中获取作业,执行它们,并使用任务状态更新任务实例。

当您运行任何这些命令时,您将在控制台中看到 stdout 和 stderr 输出。如果您将它们作为守护进程或后台进程运行,则可以检查服务器上正在运行哪些进程。

如果你 ctrl+c 你正在发送一个信号来终止进程。理想情况下,对于生产气流集群,您应该有一些主管监控流程并确保它们始终运行。在本地,您可以在单独 shell 的前台运行命令,将它们最小化,并在需要时保持它们运行。或者将它们作为带有-D参数的后台守护程序运行。即airflow webserver -D