相关疑难解决方法(0)

Hadoop - 分布式缓存中的大文件

我有一个4 GB的文件,我试图通过分布式缓存在所有映射器之间共享.但我观察到地图任务尝试启动的重大延迟.具体来说,我提交作业的时间(通过job.waitForCompletion())与第一张地图开始的时间之间存在显着延迟.

我想知道在DistributedCache中使用大文件的副作用是什么.复制分布式缓存上的文件多少次?群集中的节点数是否会对此产生影响?

(我的群集在非常强大的计算机上运行了大约13个节点,每台计算机可以容纳近10个映射插槽.)

谢谢

hadoop distributed-cache

1
推荐指数
1
解决办法
1313
查看次数

标签 统计

distributed-cache ×1

hadoop ×1