我在HDFS中有1000多个文件,其命名约定1_fileName.txt为N_fileName.txt.每个文件的大小为1024 MB.我需要将这些文件合并为一个(HDFS)并保持文件的顺序.说5_FileName.txt应该只追加4_fileName.txt
1_fileName.txt
N_fileName.txt
5_FileName.txt
4_fileName.txt
执行此操作的最佳和最快方法是什么.
是否有任何方法可以在不复制数据节点之间的实际数据的情况下执行此合并?例如:获取此文件的块位置并在Namenode中创建具有这些块位置的新条目(FileName)?
hadoop hdfs
hadoop ×1
hdfs ×1