ele*_*ora 5 python hadoop apache-spark parquet pyspark
我可以访问hdfs文件系统,可以看到镶木地板文件
hadoop fs -ls /user/foo
Run Code Online (Sandbox Code Playgroud)
如何将这些镶木地板文件复制到我的本地系统并将它们转换为csv以便我可以使用它们?这些文件应该是简单的文本文件,每行包含许多字段.
Zol*_*tan 12
尝试
var df = spark.read.parquet("/path/to/infile.parquet")
df.write.csv("/path/to/outfile.csv")
Run Code Online (Sandbox Code Playgroud)
相关API文档:
双方/path/to/infile.parquet并/path/to/outfile.csv应在HDFS文件系统中的位置.您可以hdfs://...显式指定,也可以省略它,因为它通常是默认方案.
您应该避免使用file://...,因为本地文件意味着与群集中的每台计算机不同的文件.输出到HDFS,然后使用命令行将结果传输到本地磁盘:
hdfs dfs -get /path/to/outfile.csv /path/to/localfile.csv
Run Code Online (Sandbox Code Playgroud)
或直接从HDFS显示:
hdfs dfs -cat /path/to/outfile.csv
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
24533 次 |
| 最近记录: |