对于通过pyspark的Spark数据帧,我们可以pyspark.sql.functions.udf用来创建一个user defined function (UDF).
我想知道我是否可以使用Python包中的任何函数udf(),例如np.random.normal来自numpy?
我在csv文件中读取一列中应该转换为日期时间的字符串.字符串在表单中MM/dd/yyyy HH:mm.但是当我尝试使用joda-time转换它时,我总是得到错误:
线程"main"中的异常java.lang.UnsupportedOperationException:不支持类型为org.joda.time.DateTime的模式
我不知道究竟是什么问题......
val input = c.textFile("C:\\Users\\AAPL.csv").map(_.split(",")).map{p =>
val formatter: DateTimeFormatter = DateTimeFormat.forPattern("MM/dd/yyyy HH:mm");
val date: DateTime = formatter.parseDateTime(p(0));
StockData(date, p(1).toDouble, p(2).toDouble, p(3).toDouble, p(4).toDouble, p(5).toInt, p(6).toInt)
}.toDF()
Run Code Online (Sandbox Code Playgroud)
谁能帮忙?