相关疑难解决方法(0)

Spark中的DataFrame,Dataset和RDD之间的区别

我只是想知道Apache Spark中的RDD和DataFrame (Spark 2.0.0 DataFrame只是一个类型别名Dataset[Row])有什么区别？

你能把一个转换成另一个吗？

apache-spark rdd apache-spark-sql apache-spark-dataset

men*_*h84

2019 01-23

228
推荐指数

10
解决办法

10万
查看次数

何时使用Spark DataFrame/Dataset API以及何时使用普通RDD？

Spark SQL DataFrame/Dataset执行引擎具有几个非常有效的时间和空间优化(例如InternalRow和表达式代码).根据许多文档,对于大多数分布式算法来说,它似乎比RDD更好.

但是,我做了一些源代码研究,但仍然不相信.我毫不怀疑InternalRow更紧凑,可以节省大量内存.但是执行算法可能不会更快地保存预定义表达式.也就是说,在源代码中表明 org.apache.spark.sql.catalyst.expressions.ScalaUDF,每个用户定义的函数都做3件事: