小编Pra*_*akh的帖子

在DataFrame上定义自定义方法的最佳方法是什么？

我需要在DataFrame上定义自定义方法.有什么更好的方法呢？解决方案应该是可扩展的,因为我打算定义大量的自定义方法.

我当前的方法是MyClass使用DataFrameas参数创建一个类(比如说),在其中定义我的自定义方法(比如说customMethod)并定义一个转换DataFrame为的隐式方法MyClass.

implicit def dataFrametoMyClass(df: DataFrame): MyClass = new MyClass(df)

Run Code Online (Sandbox Code Playgroud)

因此,我可以打电话:

dataFrame.customMethod()

Run Code Online (Sandbox Code Playgroud)

这是正确的方法吗？公开征求意见.

scala apache-spark apache-spark-sql

Pra*_*akh

2015 09-18

10
推荐指数

2
解决办法

2859
查看次数

为什么Spark/Scala编译器无法在RDD [Map [Int,Int]]上找到toDF？

为什么以下结果会出错？

scala> import sqlContext.implicits._
import sqlContext.implicits._

scala> val rdd = sc.parallelize(1 to 10).map(x => (Map(x  -> 0), 0))
rdd: org.apache.spark.rdd.RDD[(scala.collection.immutable.Map[Int,Int], Int)] = MapPartitionsRDD[20] at map at <console>:27

scala> rdd.toDF
res8: org.apache.spark.sql.DataFrame = [_1: map<int,int>, _2: int]

scala> val rdd = sc.parallelize(1 to 10).map(x => Map(x  -> 0))
rdd: org.apache.spark.rdd.RDD[scala.collection.immutable.Map[Int,Int]] = MapPartitionsRDD[23] at map at <console>:27

scala> rdd.toDF
<console>:30: error: value toDF is not a member of org.apache.spark.rdd.RDD[scala.collection.immutable.Map[Int,Int]]
              rdd.toDF

Run Code Online (Sandbox Code Playgroud)

那么到底发生了什么,toDF可以将RDD类型转换(scala.collection.immutable.Map[Int,Int], Int)为DataFrame而不是类型scala.collection.immutable.Map[Int,Int].这是为什么？

scala apache-spark apache-spark-sql

Pra*_*akh

2015 09-16

7
推荐指数

2
解决办法

5588
查看次数