小编Tob*_*ski的帖子

从 Python 列表向 PySpark DataFrame 添加新列

我有一个清单:

dates = [2017, 2018, 2018, 2018, 2019, 2019, 2019, 2020, 2020, 2020]
Run Code Online (Sandbox Code Playgroud)

我尝试将其添加到的数据帧长度相同(没有问题)。

我试过:

df = df.withColumn("YEARS", dates)
Error: Column needs to be col
Run Code Online (Sandbox Code Playgroud)

我也试过:

df = df.withColumn("YEARS", f.lit(dates))
Run Code Online (Sandbox Code Playgroud)

但这也行不通。

我看到了这个问题:如何在 Spark DataFrame 中添加一个常量列?

但是对于这种情况没有任何用处。

更新:预期结果是:

df_columns...   | dates_from_list
---------------------------------
original_df_data| 2017
original_df_data| 2018
original_df_data| 2018
original_df_data| 2018
original_df_data| 2019
original_df_data| 2019
original_df_data| 2019
original_df_data| 2020
original_df_data| 2020
original_df_data| 2020
Run Code Online (Sandbox Code Playgroud)

python apache-spark apache-spark-sql pyspark

4
推荐指数
1
解决办法
1230
查看次数

标签 统计

apache-spark ×1

apache-spark-sql ×1

pyspark ×1

python ×1