请帮助我理解 HDFS 的数据块和 Spark 中的 RDD 之间的区别。HDFS 将数据集分发到集群中的多个节点,因为具有相同大小的块和数据块将被多次复制并存储。RDD 被创建为并行化集合。Parallelized 集合的元素是跨节点分布还是存储在内存中进行处理?与 HDFS 的数据块有任何关系吗?
hadoop hdfs apache-spark rdd
apache-spark ×1
hadoop ×1
hdfs ×1
rdd ×1