嗨,大家好,
我需要使用airflow来安排我的python 文件(其中包含从sql和一些连接中提取数据).我已经成功地将气流安装到我的linux服务器中,我可以使用气流网络服务器.但即使在完成文档后,我也不清楚我需要在哪里编写脚本以进行调度以及该脚本如何在airflow webserver中可用,这样我才能看到状态
就配置而言,我知道dag文件夹在我的主目录中的位置以及示例dags所在的位置.
注意:请不要将此标记为重复与如何在Airflow中运行bash脚本文件,因为我需要运行位于不同位置的python文件.
我正在尝试定义一种架构,以按照以下语法将空白列表转换为数据框:
data=[]
schema = StructType([
StructField("Table_Flag",StringType(),True),
StructField("TableID",IntegerType(),False),
StructField("Entry_No",StringType(),True),
StructField("Dimension_Code",StringType(),True),
StructField("Dimension_Value_Code",StringType(),True)
])
data=spark.createDataFrame(data,schema)
Run Code Online (Sandbox Code Playgroud)
但它给出了错误名称'IntegerType'的定义。我已经尝试过使用BooleanType,DecimalType,FloatType,IntegralType,但是都无法正常工作。只有StringType和DataType可用作数据类型。根据文档类型,在示例中定义了py IntegerType。
请提出建议。我正在使用Spark版本2.0.1
apache-spark ×2
airflow ×1
dataframe ×1
pyspark ×1
python ×1
reload ×1
scheduling ×1
schema ×1
struct ×1