如何将镶木地板文件复制并转换为csv

ele*_*ora 5 python hadoop apache-spark parquet pyspark

我可以访问hdfs文件系统,可以看到镶木地板文件

hadoop fs -ls /user/foo
Run Code Online (Sandbox Code Playgroud)

如何将这些镶木地板文件复制到我的本地系统并将它们转换为csv以便我可以使用它们?这些文件应该是简单的文本文件,每行包含许多字段.

Zol*_*tan 12

尝试

var df = spark.read.parquet("/path/to/infile.parquet")
df.write.csv("/path/to/outfile.csv")
Run Code Online (Sandbox Code Playgroud)

相关API文档:

双方/path/to/infile.parquet/path/to/outfile.csv应在HDFS文件系统中的位置.您可以hdfs://...显式指定,也可以省略它,因为它通常是默认方案.

您应该避免使用file://...,因为本地文件意味着与群集中的每台计算机不同的文件.输出到HDFS,然后使用命令行将结果传输到本地磁盘:

hdfs dfs -get /path/to/outfile.csv /path/to/localfile.csv
Run Code Online (Sandbox Code Playgroud)

或直接从HDFS显示:

hdfs dfs -cat /path/to/outfile.csv
Run Code Online (Sandbox Code Playgroud)