我有一个包含呼叫数据记录(CDR)的配置单元表。我在电话号码上对表进行了分区,并在 call_date 上进行了存储。现在,当我将数据插入配置单元时,过时的 call_date 正在我的存储桶中创建小文件,这导致名称节点元数据增加和性能下降。有没有办法将这些小文件合并成一个。
hadoop hive mapreduce bigdata hdfs
bigdata ×1
hadoop ×1
hdfs ×1
hive ×1
mapreduce ×1