相关疑难解决方法(0)

如何制作良好的可重现的Apache Spark示例

我花了相当多的时间阅读标签的一些问题,而且我经常发现海报没有提供足够的信息来真正理解他们的问题.我经常评论要求他们发布MCVE,但有时让他们显示一些样本输入/输出数据就像拔牙一样.例如:请参阅有关此问题的评论.

也许问题的一部分是人们只是不知道如何轻松地为火花数据帧创建MCVE.我认为将这个pandas问题的spark-dataframe版本作为可以链接的指南是有用的.

那么如何创造一个好的,可重复的例子呢?

dataframe apache-spark apache-spark-sql pyspark pyspark-sql

55
推荐指数
4
解决办法
3952
查看次数

如何使用 pyspark 函数处理日期格式的 T 和 Z

我希望在将日期字符串转换为当前时区后从日期字符串中提取年、月、日和小时。我创建了以下独立代码,该代码导致空值。不确定如何处理数据中时间格式的 T 和 Z 分隔符。

from pyspark.sql.functions import unix_timestamp, from_unixtime

df = spark.createDataFrame(
    [("2020-02-28T09:49Z",)], 
    ['date_str']
)

df2 = df.select(
    'date_str', 
    from_unixtime(unix_timestamp('date_str', 'yyyy-MM-ddThh:mmZ')).alias('date')
)

df2.show()

Run Code Online (Sandbox Code Playgroud)

从上面的结果可以看出——

 +-----------------+----+
|         date_str|date|
+-----------------+----+
|2020-02-28T09:49Z|null|
+-----------------+----+
Run Code Online (Sandbox Code Playgroud)

有人可以指导我如何处理这个问题并在此处打印日期吗?

python dataframe apache-spark pyspark

3
推荐指数
1
解决办法
7001
查看次数