仅当在主方法外部定义案例类以创建 Dataset[case class] 或 Dataframe[case class] 时才起作用

Question

仅当在主方法外部定义案例类以创建 Dataset[case class] 或 Dataframe[case class] 时才起作用

Pra*_*n L 5 scala dataframe apache-spark

这是有效的。

object FilesToDFDS {
    case class Student(id: Int, name: String, dept:String)
    def main(args: Array[String]): Unit = {
        val ss = SparkSession.builder().appName("local").master("local[*]").getOrCreate()
        import ss.implicits._

        val path = "data.txt"
        val rdd = ss.sparkContext.textFile(path).map(x => x.split(" ")).map(x => Student(x(0).toInt,x(1),x(2)))
        val df = ss.read.format("csv").option("delimiter", " ").load(path).map(x => Student(x.getString(0).toInt ,x.getString(1),x.getString(2)))
        val ds = ss.read.textFile(path).map(x => x.split(" ")).map(x => Student(x(0).toInt,x(1),x(2)))

        val rddToDF = ss.sqlContext.createDataFrame(rdd)

    }
}

Run Code Online (Sandbox Code Playgroud)

但是，如果 case 类移动到 main 内部，df则会ds出现编译错误。

Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._ Support for serializing other types will be added in future releases.

Run Code Online (Sandbox Code Playgroud)

并rddToDF 给出这个编译错误No TypeTag available for Student

在本题ques1中，ques2回答的人是搬到case class外面去main。这个想法奏效了。case class但是，为什么它只有在移到主方法之外时才起作用？

Answer 1

小智 0

我相信如果一个案例类是在另一个类中定义的，那么它需要该类的一个实例才能正常工作。在这种情况下，如果您将Student类放在主类中，那么您将需要类似的东西FilesToDFDS.Student才能使其工作。

归档时间：	7 年，10 月前
查看次数：	426 次
最近记录：	5 年，9 月前