相关疑难解决方法(0)

来自Python包的函数用于Spark数据帧的udf()

对于通过pyspark的Spark数据帧,我们可以pyspark.sql.functions.udf用来创建一个user defined function (UDF).

我想知道我是否可以使用Python包中的任何函数udf(),例如np.random.normal来自numpy？

python apache-spark pyspark

Jie*_*hen

2017 02-22

7
推荐指数

1
解决办法

7751
查看次数

将形式为"MM/dd/yyyy HH:mm"的字符串转换为Spark中数据框中的joda datetime

我在csv文件中读取一列中应该转换为日期时间的字符串.字符串在表单中MM/dd/yyyy HH:mm.但是当我尝试使用joda-time转换它时,我总是得到错误:

线程"main"中的异常java.lang.UnsupportedOperationException:不支持类型为org.joda.time.DateTime的模式

我不知道究竟是什么问题......

 val input = c.textFile("C:\\Users\\AAPL.csv").map(_.split(",")).map{p => 
      val formatter: DateTimeFormatter = DateTimeFormat.forPattern("MM/dd/yyyy HH:mm");
      val date: DateTime = formatter.parseDateTime(p(0));
      StockData(date, p(1).toDouble, p(2).toDouble, p(3).toDouble, p(4).toDouble, p(5).toInt, p(6).toInt)
}.toDF()

Run Code Online (Sandbox Code Playgroud)

谁能帮忙？

datetime scala jodatime apache-spark

Gis*_*gen

2015 11-13

3
推荐指数

1
解决办法

4059
查看次数