PySpark-列的to_date格式

Question

PySpark-列的to_date格式

bub*_*itz 3 apache-spark apache-spark-sql pyspark

我目前正在尝试找出如何通过列参数将String-format参数传递给to_date pyspark函数。

具体来说，我有以下设置：

sc = SparkContext.getOrCreate()
df = sc.parallelize([('a','2018-01-01','yyyy-MM-dd'),
                      ('b','2018-02-02','yyyy-MM-dd'),
                      ('c','02-02-2018','dd-MM-yyyy')]).toDF(
                    ["col_name","value","format"])

Run Code Online (Sandbox Code Playgroud)

我当前正在尝试添加一个新列，其中将F.col（“ value”）列中的每个日期（它是一个字符串值）解析为一个日期。

对于每种格式，可以分别使用

df = df.withColumn("test1",F.to_date(F.col("value"),"yyyy-MM-dd")).\
        withColumn("test2",F.to_date(F.col("value"),"dd-MM-yyyy"))

Run Code Online (Sandbox Code Playgroud)

但是，这给了我2个新列-但我希望有1个列包含两个结果-但使用to_date函数似乎无法调用该列：

df = df.withColumn("test3",F.to_date(F.col("value"),F.col("format")))

Run Code Online (Sandbox Code Playgroud)

此处将引发错误“列对象不可调用”。

是否可以对所有可能的格式采用通用方法（这样我就不必为每种格式手动添加新列）？

Answer 1

pau*_*ult 5

您可以将列值用作参数，而无需udf使用spark-sql语法：

Spark 2.2及更高版本

from pyspark.sql.functions import expr
df.withColumn("test3",expr("to_date(value, format)")).show()
#+--------+----------+----------+----------+
#|col_name|     value|    format|     test3|
#+--------+----------+----------+----------+
#|       a|2018-01-01|yyyy-MM-dd|2018-01-01|
#|       b|2018-02-02|yyyy-MM-dd|2018-02-02|
#|       c|02-02-2018|dd-MM-yyyy|2018-02-02|
#+--------+----------+----------+----------+

Run Code Online (Sandbox Code Playgroud)

或者等效地使用pyspark-sql：

df.createOrReplaceTempView("df")
spark.sql("select *, to_date(value, format) as test3 from df").show()

Run Code Online (Sandbox Code Playgroud)

Spark 1.5及更高版本

旧版本的spark不支持format对该to_date函数使用参数，因此您必须使用unix_timestampand from_unixtime：

from pyspark.sql.functions import expr
df.withColumn(
    "test3",
    expr("from_unixtime(unix_timestamp(value,format))").cast("date")
).show()

Run Code Online (Sandbox Code Playgroud)

或者等效地使用pyspark-sql：

df.createOrReplaceTempView("df")
spark.sql(
    "select *, cast(from_unixtime(unix_timestamp(value,format)) as date) as test3 from df"
).show()

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，2 月前
查看次数：	10037 次
最近记录：	7 年，2 月前