什么是hadoop hdfs中的/ tmp目录?

san*_*kar 12 hadoop temporary-files

我有4个数据节点集群,每个节点上的hdfs结构如下所示

在此输入图像描述

我面临磁盘空间问题,因为你可以看到hdfs中的/ tmp文件夹占用了更多的空间(217GB).所以我试图调查/ tmp文件夹中的数据.我找到了以下临时文件.我访问了这些临时文件夹,每个文件夹包含一些10gb到20GB大小的部分文件.我想清除这个/ tmp目录.任何人都可以让我知道删除这些tmp文件夹或部分文件的后果.它会影响我的集群吗?

在此输入图像描述

Sac*_*inJ 16

HDFS/tmp目录主要用作mapreduce操作期间的临时存储.Mapreduce工件,中间数据等将保存在此目录下.mapreduce作业执行完成后,这些文件将自动清除.如果删除此临时文件,则会影响当前运行的mapreduce作业.

临时文件由pig创建.临时文件删除最后发生.如果脚本执行失败或被杀死,Pig不会处理临时文件删除.然后你必须处理这种情况.您最好在脚本本身处理此临时文件清理活动.

以下文章为您提供了很好的理解

http://www.lopakalogic.com/articles/hadoop-articles/pig-keeps-temp-files/