Spark中的RDD和批次之间的区别?

Ven*_*ive 4 apache-spark spark-streaming rdd

RDD是跨群集节点分区的元素的集合.它是核心组件和抽象.

批处理: SparkStreaming API简单地将数据分成批处理,批处理也是Streaming对象/元素的相同集合.根据需求,在基于时间的批处理窗口基于密集在线活动的批处理窗口中定义的一组批次.

Rdd&Batches有什么区别?

maa*_*asg 6

RDDs和批次本质上是不同的,但Spark相关的东西.正如问题中所提到的,RDDs是一个基本的Spark概念,因为它们构成了Spark中分布式计算的基础数据结构.

RDD[T]s是类型的元件的虚拟集合[T]分布在集群中的分区.

在Spark Streaming中,"批处理"是在batchInterval时间内收集数据的结果.数据收集在"块"中,块的大小由spark.streaming.blockIntervalconfig参数确定.

这些块将提交给Spark Core引擎进行处理.每个批处理的块集合变为一个RDD,每个块是一个RDD分区.

说批次和RDDs是同一个东西是不正确的.当Spark Streaming批处理数据被提交以处理Spark Core时,它将成为RDD.