Hadoop中分布式缓存的生命周期

Question

在Hadoop流式传输作业中使用分布式缓存机制将文件传输到节点时,系统是否在作业完成后删除这些文件？如果它们被删除,我认为它们是,有没有办法让缓存保留多个工作？这在Amazon的Elastic Mapreduce上的工作原理是否相同？

Answer 1

我在源代码中进行挖掘,看起来文件TrackerDistributedCacheManager在引用计数降至零时大约每分钟删除一次.在TaskRunner明确地释放它的所有文件在任务结束.也许你应该编辑TaskRunner不要这样做,并通过更明确的方式自己控制缓存？