相关疑难解决方法(0)

Spark 2.0 Dataset vs DataFrame

从spark 2.0.1开始我有一些问题.我阅读了很多文档,但到目前为止找不到足够的答案:

有什么区别
- df.select("foo")
- df.select($"foo")
我能正确理解吗
- myDataSet.map(foo.someVal)是类型安全的,不会转换为RDD但保留在DataSet表示/没有额外的开销(2.0.0的性能明智)
所有其他命令,例如select,..只是语法糖.它们不是类型安全的,可以使用地图代替.如果df.select("foo")没有地图声明,我怎么能输入？
- 为什么我应该使用UDF/UADF而不是地图(假设地图保留在数据集表示中)？

scala apache-spark apache-spark-sql apache-spark-dataset apache-spark-2.0

23
推荐指数

1
解决办法

4687
查看次数

Spark DataSet和RDD之间有什么区别

我仍在努力了解最近推出的Spark数据集的全部功能.

是否有何时使用RDD以及何时使用数据集的最佳实践？

在他们的公告中, Databricks解释说,通过使用数据集,可以实现运行时和内存的惊人减少.仍然声称数据集被设计为"与现有的RDD API一起工作".

这只是向下兼容性的参考,还是有人宁愿在数据集上使用RDD？

apache-spark rdd apache-spark-dataset

9
推荐指数

1
解决办法

3429
查看次数

标签统计

apache-spark ×2

apache-spark-dataset ×2

apache-spark-2.0 ×1

apache-spark-sql ×1

rdd ×1