Pyspark从日期到字符串更改列的类型

cim*_*bom 6 python apache-spark apache-spark-sql pyspark

我有以下数据帧:

corr_temp_df
[('vacationdate', 'date'),
 ('valueE', 'string'),
 ('valueD', 'string'),
 ('valueC', 'string'),
 ('valueB', 'string'),
 ('valueA', 'string')]
Run Code Online (Sandbox Code Playgroud)

现在我想将列vacationdate的数据类型更改为String,这样数据帧也会采用这种新类型并覆盖所有条目的数据类型数据.例如写完后:

corr_temp_df.dtypes
Run Code Online (Sandbox Code Playgroud)

应该覆盖vacationdate的数据类型.

我已经使用了诸如cast,StringType或astype之类的函数,但我没有成功.你知道怎么做吗?

zer*_*323 13

让我们创建一些虚拟数据:

import datetime
from pyspark.sql import Row
from pyspark.sql.functions import col

row = Row("vacationdate")

df = sc.parallelize([
    row(datetime.date(2015, 10, 07)),
    row(datetime.date(1971, 01, 01))
]).toDF()
Run Code Online (Sandbox Code Playgroud)

如果Spark> = 1.5.0,您可以使用date_format函数:

from pyspark.sql.functions import date_format

(df
   .select(date_format(col("vacationdate"), "dd-MM-YYYY")
   .alias("date_string"))
   .show())
Run Code Online (Sandbox Code Playgroud)

在Spark <1.5.0中,可以使用Hive UDF完成:

df.registerTempTable("df")
sqlContext.sql(
    "SELECT date_format(vacationdate, 'dd-MM-YYYY') AS date_string FROM df")
Run Code Online (Sandbox Code Playgroud)

它当然仍然可以在Spark> = 1.5.0中使用.

如果你不使用,HiveContext你可以模仿date_format使用UDF:

from pyspark.sql.functions import udf, lit
my_date_format = udf(lambda d, fmt: d.strftime(fmt))

df.select(
    my_date_format(col("vacationdate"), lit("%d-%m-%Y")).alias("date_string")
).show()
Run Code Online (Sandbox Code Playgroud)

请注意,它使用的是C标准格式,而不是Java 简单日期格式