小编Jac*_*aco的帖子

Pyspark 在写入时用 Null 值填充我的列

我有一个关于 Pyspark 写作的问题,我目前正在运行以下行:

sat_prospect_credentials.write.format("delta").mode("append").save(f"{TABLE_MAP[table]}")
Run Code Online (Sandbox Code Playgroud)

它将 Spark DataFrame 以增量格式写入 Azure ADLS。我遇到以下问题,我有一个名为 end_date 的列,其中填充了 Null 值(这是故意的,因为这是用于 SCD 管理),但是,当我写入 DataLake 时,该列将被删除。有谁知道如何防止这种情况发生? 这是带有 end_date 列的原始 DataFrame

写完后无栏

谢谢!

我尝试过 schemaOverwrite、mergeSchema 和其他选项。我不知道从这里开始如何跟进

python apache-spark pyspark databricks delta-lake

2
推荐指数
1
解决办法
1208
查看次数

标签 统计

apache-spark ×1

databricks ×1

delta-lake ×1

pyspark ×1

python ×1