Ajg*_*Ajg 6 python hadoop hdfs pyspark spark-dataframe
我有一个非常大的pyspark数据帧.所以我想对它的子集执行预处理,然后将它们存储到hdfs.后来我想阅读所有这些并合并在一起.谢谢.
将DataFrame写入HDFS(Spark 1.6).
df.write.save('/target/path/', format='parquet', mode='append') ## df is an existing DataFrame object.
Run Code Online (Sandbox Code Playgroud)一些格式的选项是csv,parquet,json等.
从HDFS(Spark 1.6)读取DataFrame.
sqlContext.read.format('parquet').load('/path/to/file')
Run Code Online (Sandbox Code Playgroud)格式方法采用参数如parquet,csv,json等.
| 归档时间: |
|
| 查看次数: |
13393 次 |
| 最近记录: |