小编Chr*_*sch的帖子

Spark DataSet和RDD之间有什么区别

我仍在努力了解最近推出的Spark数据集的全部功能.

是否有何时使用RDD以及何时使用数据集的最佳实践?

在他们的公告中, Databricks解释说,通过使用数据集,可以实现运行时和内存的惊人减少.仍然声称数据集被设计为"与现有的RDD API一起工作".

这只是向下兼容性的参考,还是有人宁愿在数据集上使用RDD?

apache-spark rdd apache-spark-dataset

9
推荐指数
1
解决办法
3429
查看次数

标签 统计

apache-spark ×1

apache-spark-dataset ×1

rdd ×1