小编use*_*513的帖子

在现有列的DataFrame中添加新列

我有一个带有datetime列的csv文件:"2011-05-02T04:52:09 + 00:00".

我正在使用scala,文件被加载到spark DataFrame中,我可以使用jodas时间来解析日期:

val sqlContext = new SQLContext(sc)
import sqlContext.implicits._
val df = new SQLContext(sc).load("com.databricks.spark.csv", Map("path" -> "data.csv", "header" -> "true")) 
val d = org.joda.time.format.DateTimeFormat.forPattern("yyyy-mm-dd'T'kk:mm:ssZ")
Run Code Online (Sandbox Code Playgroud)

我想基于datetime字段创建新列以进行时间序列分析.

在DataFrame中,如何根据另一列的值创建列?

我注意到DataFrame具有以下功能:df.withColumn("dt",column),有没有办法根据现有列的值创建列?

谢谢

scala apache-spark apache-spark-sql

3
推荐指数
1
解决办法
8430
查看次数

标签 统计

apache-spark ×1

apache-spark-sql ×1

scala ×1