我有一个大的日志文件,我加载到HDFS.HDFS将根据机架感知复制到不同的节点.
现在我将相同的文件加载到配置单元表中.命令如下:
create table log_analysis (logtext string) STORED AS TEXTFILE
LOCATION '/user/hive/warehouse/';
LOAD DATA INPATH '/user/log/apache.log' OVERWRITE INTO TABLE log_analysis;
Run Code Online (Sandbox Code Playgroud)
现在,当我去查看'/ user/hive/warehouse /'目录时,有一个表文件并将其复制到本地,它具有所有日志文件数据.
我的问题是:HDFS复制现有文件.然后在hive表中加载该文件,存储HDFS也会被复制.
是不是存储了6次不同的文件(假设复制因子是3)?这将浪费资源.
hive ×1