如何在将数据插入存储桶时合并hive创建的小文件？

Question

如何在将数据插入存储桶时合并hive创建的小文件？

Abh*_*tra 1 hadoop hive mapreduce bigdata hdfs

我有一个包含呼叫数据记录（CDR）的配置单元表。我在电话号码上对表进行了分区，并在 call_date 上进行了存储。现在，当我将数据插入配置单元时，过时的 call_date 正在我的存储桶中创建小文件，这导致名称节点元数据增加和性能下降。有没有办法将这些小文件合并成一个。

Answer 1

小智 6

使用 Hive 插入表时控制文件大小的一种方法是设置以下参数：

set hive.merge.tezfiles=true;
set hive.merge.mapfiles=true;
set hive.merge.mapredfiles=true;
set hive.merge.size.per.task=128000000;
set hive.merge.smallfiles.avgsize=128000000;

Run Code Online (Sandbox Code Playgroud)

这将适用于 M/R 和 Tez 引擎，并确保创建的所有文件的大小不超过 128 MB（您可以根据您的用例更改该大小数字。其他阅读：https://community.cloudera .com/t5/Community-Articles/ORC-Creation-Best-Practices/ta-p/248963）。

合并表文件的最简单方法是重新制作它，同时在运行时运行上述 hive 命令：

CREATE TABLE new_table LIKE old_table;
INSERT INTO new_table select * from old_table;

Run Code Online (Sandbox Code Playgroud)

在您的情况下，对于 ORC 表，您可以在创建后连接文件：

ALTER TABLE table_name [PARTITION (partition_key = 'partition_value')] CONCATENATE;

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年，3 月前
查看次数：	6801 次
最近记录：	6 年，3 月前