我想知道 Airflow 在审计日志的意义上提供了什么。我的 Airflow 环境正在运行 Airflow 1.10 版,并使用文件的[ldap]部分airflow.cfg来使用我公司的 Active Dicrectory (AD) 进行身份验证。我看到当有人通过 Web UI 登录 Airflow 时,它会将用户名写入网络服务器的日志(如下所示)。我想知道是否可以修改 Airflow 以在用户打开/关闭 DAG、创建新的 Airflow 变量或池、清除任务、将任务标记为成功以及用户可以执行的任何其他操作时进行记录.
我需要能够对用户的活动进行某种处理,因为为了在我的工作中使用 Airflow,我必须让它通过架构师的安全审查,而他需要能够跟踪用户的活动。
这种能力是否由 Airflow 提供开箱即用?我明白,如果我要使用名为Cloud Composer 的Google Cloud 的 Airflow 服务,那么我将通过他们的服务获取审计日志,但不幸的是,我与 Amazon Web Services (AWS) 生态系统相关联,并且我自己维护着 Airflow(不是通过服务)。
我在airflow webserver日志中看到,当我遍历 Airflow Web UI 时,它正在发送休息调用
161.179.215.170 - - [17/Sep/2018:16:39:26 -0400] "GET /admin/ HTTP/1.1" 200 71942 "http://1.2.3.4:8080/admin/airflow/graph?dag_id=ARL_OnDemand" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"
Run Code Online (Sandbox Code Playgroud)
当我登录时,我看到它告诉我用户名(登录到login这里的功能https://github.com/apache/incubator-airflow/blob/master/airflow/contrib/auth/backends/ldap_auth.py)
[2018-09-17 16:27:15,493] {ldap_auth.py:287} INFO - User foobaruser successfully authenticated
161.179.215.170 - - [17/Sep/2018:16:27:16 -0400] "POST /admin/airflow/login HTTP/1.1" 302 221 "http://1.2.3.4:8080/admin/airflow/login?next=%2Fadmin%2F" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"
Run Code Online (Sandbox Code Playgroud)
所以我想知道是否有办法更新网络服务器日志,以便每次记录 GET 或 POST 请求时,它也会记录发送请求的客户端。这将满足我的审计日志需求,因为我总是知道用户在 UI 上的 Airflow 中做了什么。
更新:
在本文中
https://wecode.wepay.com/posts/improving-airflow-ui-security
显然 Airflow 1.10 引入了一个全新的网站安全架构,他们将在未来弃用原始的 Flask UI。
我发现与这篇文章相关的这篇文章很有趣,尽管她谈到动作日志是被动的而不是抢先的,我想知道这是否与审计日志有关?
在此期间,对安全性进行了多项改进,包括添加操作日志记录功能和创建硬编码的原始 RBAC 实现。但是,操作日志记录是被动的而不是抢占式的,并且本机 RBAC 实现仍然允许所有角色对 DAG 进行读写访问,因此它们没有解决我们的安全问题。
工作解决方案:
尽管我说我使用的是 Airflow 1.10 版,但实际上我使用的是 Airflow 1.9 版 :) 在 Airflow vesion 1.9Owner上,日志上的列对我来说总是空白,除非它说Airflow。但是在升级到 Airflow 1.10 版并连接到我的 LDAP 之后,我Owner每次执行修改命令时都会看到我的 LDAP 用户名 (kbridenstine) 被记录下来!
锦上添花的是,当服务器上的某人运行 Airflow 命令时,Airflow 也会记录日志(因为您也可以通过他们的 CLI 命令修改 Airflow)。您可以通过我在运行 Airflow 的 ec2-instance 服务器上用于 Airflow的root和ec2-users看到这一点。
我认为下面的日志AIRFLOW_WEB_SERVER_URL:PORT/admin/log/应该为您提供足够的信息,即如果有人使用 UI 或 cli 清除 dag,如下面的屏幕截图所示。
其中一些元数据是从 MetaDB 中检索的。
| 归档时间: |
|
| 查看次数: |
3276 次 |
| 最近记录: |