在独立火花上合并镶木地板文件

Question

是否有一种简单的方法可以保存DataFrame到单个 parquet文件中,或者将包含元数据的目录和由此parquet产生的文件的部分合并sqlContext.saveAsParquetFile()到存储在NFS上的单个文件中,而无需使用HDFS和hadoop？

Answer 1

为了节省只有一个文件,而不是很多,你可以调用coalesce(1)/ repartition(1)在RDD /数据帧中的数据被保存之前.

如果您已有一个包含小文件的目录,则可以创建一个Compacter进程,该进程将读取现有文件并将其保存到一个新文件中.例如

val rows = parquetFile(...).coalesce(1)
rows.saveAsParquetFile(...)

您可以使用saveAsParquetFile存储到本地文件系统.例如

rows.saveAsParquetFile("/tmp/onefile/")