我仍在努力了解最近推出的Spark数据集的全部功能.
是否有何时使用RDD以及何时使用数据集的最佳实践?
在他们的公告中, Databricks解释说,通过使用数据集,可以实现运行时和内存的惊人减少.仍然声称数据集被设计为"与现有的RDD API一起工作".
这只是向下兼容性的参考,还是有人宁愿在数据集上使用RDD?
apache-spark rdd apache-spark-dataset
apache-spark ×1
apache-spark-dataset ×1
rdd ×1