以下字段是什么:'totalSize'和'rawDataSize'在hive中的DESCRIBE EXTENDED查询输出中表示什么?

Hen*_* RK 7 hadoop hive hiveql

如果在任何配置单元表上运行DESCRIBE EXTENDED命令,则结果会在输出结尾附近显示totalSize和rawDataSize值.

这些字段意味着什么?

例如:

hive > DESCRIBE EXTENDED <TableName>

Output Results:

Table(tableName:TablenameXXXXX, dbName:XXxXXX,
..........       .......................
numRows=116429472, totalSize=3835205544, rawDataSize=35040221600})
Run Code Online (Sandbox Code Playgroud)

Dur*_*aju 10

rawDataSize是原始数据集的大小,totalSize是它所需的存储量.它适用于ORC文件格式,因为它压缩数据totalSize将小于rawDataSize.

  • @Neal:根据这个 [wiki](https://cwiki.apache.org/confluence/display/Hive/StatsDev),totalSize 以字节为单位 (2认同)
  • 如果是Parquet格式,则rawDataSize仍小于totalSize,但是怎么可能呢?拼花格式应压缩原始数据。我很困惑 (2认同)

Eug*_*gen 5

字段的含义是:

  • totalSize - 存储表数据的磁盘上物理文件的总大小(以字节为单位)。
  • rawDataSize - 是列的每个数据类型大小的总和乘以表中的行数。这也用作查询优化器的估计(例如,确定表是否足够小以进行映射连接而不是简单连接)。