小编hot*_*_02的帖子

Pyspark - 生成一个日期列,其中包含两个给定日期之间的所有天数,并将其添加到现有数据框中

我对 pyspark 比较陌生。我想生成一个数据框列,其日期在两个给定日期(常量)之间,并将该列添加到现有数据框。有效的方法是什么?

我尝试了这个但没有成功:

df_add_column = df.withColumn("repeat", expr("split(repeat(',', diffDays), ',')")).select("*", posexplode("repeat").alias('DATE', "val")) .drop("repeat", "val", "diffDays").withColumn('DATE', expr("date_add('2018-01-01', 'DATE')"))
Run Code Online (Sandbox Code Playgroud)

python apache-spark apache-spark-sql pyspark

3
推荐指数
1
解决办法
4062
查看次数

标签 统计

apache-spark ×1

apache-spark-sql ×1

pyspark ×1

python ×1