我有一个4 GB的文件,我试图通过分布式缓存在所有映射器之间共享.但我观察到地图任务尝试启动的重大延迟.具体来说,我提交作业的时间(通过job.waitForCompletion())与第一张地图开始的时间之间存在显着延迟.
我想知道在DistributedCache中使用大文件的副作用是什么.复制分布式缓存上的文件多少次?群集中的节点数是否会对此产生影响?
(我的群集在非常强大的计算机上运行了大约13个节点,每台计算机可以容纳近10个映射插槽.)
谢谢
hadoop distributed-cache
distributed-cache ×1
hadoop ×1