我有一个非常大的pyspark数据帧.所以我想对它的子集执行预处理,然后将它们存储到hdfs.后来我想阅读所有这些并合并在一起.谢谢.
python hadoop hdfs pyspark spark-dataframe
hadoop ×1
hdfs ×1
pyspark ×1
python ×1
spark-dataframe ×1