我有一个由调度程序触发的 AWS 胶水 ETL 作业。我的 ETL 语言是 python。我正在尝试 - 在 s3 存储桶中写入查询结果。为此,我使用了 sparkSql。此作业在由调度程序触发时失败,但在手动运行时成功。它为 spark df 中可用的列 (eventdate) 引发错误。
下面是日志。
Traceback (most recent call last):
File "script_2018-06-22-11-10-05.py", line 48, in <module>
error_report_result_df = spark.sql(sql_query)
File "/mnt/yarn/usercache/root/appcache/application_1529665635815_0001/container_1529665635815_0001_01_000001/pyspark.zip/pyspark/sql/session.py", line 603, in sql
File "/mnt/yarn/usercache/root/appcache/application_1529665635815_0001/container_1529665635815_0001_01_000001/py4j-0.10.4-src.zip/py4j/java_gateway.py", line 1133, in __call__
File "/mnt/yarn/usercache/root/appcache/application_1529665635815_0001/container_1529665635815_0001_01_000001/pyspark.zip/pyspark/sql/utils.py", line 69, in deco
pyspark.sql.utils.AnalysisException: u"cannot resolve '`eventdate`' given input columns: []; line 1 pos 480;1
Run Code Online (Sandbox Code Playgroud) aws-glue ×1