小编Tob*_*ski的帖子

从 Python 列表向 PySpark DataFrame 添加新列

我有一个清单：

dates = [2017, 2018, 2018, 2018, 2019, 2019, 2019, 2020, 2020, 2020]

Run Code Online (Sandbox Code Playgroud)

我尝试将其添加到的数据帧长度相同（没有问题）。

我试过：

df = df.withColumn("YEARS", dates)
Error: Column needs to be col

Run Code Online (Sandbox Code Playgroud)

我也试过：

df = df.withColumn("YEARS", f.lit(dates))

Run Code Online (Sandbox Code Playgroud)

但这也行不通。

我看到了这个问题：如何在 Spark DataFrame 中添加一个常量列？

但是对于这种情况没有任何用处。

更新：预期结果是：

df_columns...   | dates_from_list
---------------------------------
original_df_data| 2017
original_df_data| 2018
original_df_data| 2018
original_df_data| 2018
original_df_data| 2019
original_df_data| 2019
original_df_data| 2019
original_df_data| 2020
original_df_data| 2020
original_df_data| 2020

Run Code Online (Sandbox Code Playgroud)

python apache-spark apache-spark-sql pyspark

Tob*_*ski

2021 06-02

4
推荐指数

1
解决办法

1230
查看次数