Jir*_*riS 1 apache-spark apache-spark-sql
是否有一种简单的方法可以保存DataFrame到单个 parquet文件中,或者将包含元数据的目录和由此parquet产生的文件的部分合并sqlContext.saveAsParquetFile()到存储在NFS上的单个文件中,而无需使用HDFS和hadoop?
为了节省只有一个文件,而不是很多,你可以调用coalesce(1)/ repartition(1)在RDD /数据帧中的数据被保存之前.
如果您已有一个包含小文件的目录,则可以创建一个Compacter进程,该进程将读取现有文件并将其保存到一个新文件中.例如
val rows = parquetFile(...).coalesce(1)
rows.saveAsParquetFile(...)
Run Code Online (Sandbox Code Playgroud)
您可以使用saveAsParquetFile存储到本地文件系统.例如
rows.saveAsParquetFile("/tmp/onefile/")
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
2531 次 |
| 最近记录: |