如何将pyspark数据帧写入HDFS,然后如何将其读回数据帧？

Question

我有一个非常大的pyspark数据帧.所以我想对它的子集执行预处理,然后将它们存储到hdfs.后来我想阅读所有这些并合并在一起.谢谢.

Answer 1

将DataFrame写入HDFS(Spark 1.6).

df.write.save('/target/path/', format='parquet', mode='append') ## df is an existing DataFrame object.

一些格式的选项是csv,parquet,json等.

从HDFS(Spark 1.6)读取DataFrame.
```
sqlContext.read.format('parquet').load('/path/to/file') 
```
Run Code Online (Sandbox Code Playgroud)

格式方法采用参数如parquet,csv,json等.

要从 hdfs 中删除数据，您可以使用 HDFS shell 命令，例如 `hdfs dfs -rm -rf <path>`。你可以使用 python 子进程执行这个，比如 `subprocess.call(["hdfs", "dfs", "-rm", "-rf", `path`])` (2认同)