根据AlterTable/PartitionConcatenate:
如果表或分区包含许多小的 RCFiles 或 ORC 文件,那么上面的命令会将它们合并成更大的文件。对于 RCFile,合并发生在块级别,而对于 ORC 文件,合并发生在条带级别,从而避免了解压缩和解码数据的开销。
还有兽人条纹:
ORC 文件的主体由一系列条纹组成。条带很大(通常约为 200MB)并且彼此独立,并且通常由不同的任务处理。列式存储格式的定义特征是每列的数据单独存储,并且从文件中读取数据应与读取的列数成正比。在 ORC 文件中,每一列都存储在多个流中,这些流在文件中彼此相邻存储。例如,整数列表示为两个流:PRESENT(如果值非空)和 DATA(记录非空值),其中每个流使用一个位来记录该值。如果条带中所有列的值均非空,则条带中将省略 PRESENT 流。对于二进制数据,ORC 使用三个流 PRESENT、DATA 和 LENGTH,它们存储每个值的长度。每种类型的详细信息将在以下小节中介绍。
要在 Spark 中实现,您可以在 Spark Context 的帮助下使用SparkSQL :
scala> val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
scala> sqlContext.sql("Your_hive_query_here")
Run Code Online (Sandbox Code Playgroud)
归档时间: |
|
查看次数: |
9048 次 |
最近记录: |