转换将基于现有RDD创建新的RDD。基本上,RDD是不可变的,Spark中的所有转换都是惰性的。RDD中的数据要等到执行一个动作后才能处理,但不处理数据,如何创建新的RDD?例如,在filter操作中如何创建新的RDD而不实际将RDD加载到内存中并对其进行处理?
filter
apache-spark rdd
apache-spark ×1
rdd ×1