小编sak*_*shi的帖子

Hive是否重复数据?

我有一个大的日志文件,我加载到HDFS.HDFS将根据机架感知复制到不同的节点.

现在我将相同的文件加载到配置单元表中.命令如下:

create table log_analysis (logtext string) STORED AS TEXTFILE
LOCATION '/user/hive/warehouse/';

LOAD DATA INPATH '/user/log/apache.log' OVERWRITE INTO TABLE log_analysis;
Run Code Online (Sandbox Code Playgroud)

现在,当我去查看'/ user/hive/warehouse /'目录时,有一个表文件并将其复制到本地,它具有所有日志文件数据.

我的问题是:HDFS复制现有文件.然后在hive表中加载该文件,存储HDFS也会被复制.

是不是存储了6次不同的文件(假设复制因子是3)?这将浪费资源.

hive

5
推荐指数
1
解决办法
1339
查看次数

标签 统计

hive ×1