oozie如何处理依赖关系?

Ter*_*ser 9 hadoop oozie oozie-coordinator

我有几个关于oozie 2.3共享库的问题:

目前,我在coordinator.properties中定义了共享库:

oozie.use.system.libpath=true 
oozie.libpath=<hdfs_path>
Run Code Online (Sandbox Code Playgroud)

这是我的问题:

  1. 共享库被复制到其他数据节点时,有多少数据节点将获得共享库?

  2. 共享库是根据协调器作业中的wf数复制到其他数据节点还是每个协调器作业只复制一次?

Chr*_*ite 8

oozie.libpath有效地向属性添加条目意味着mapred.cache.files当执行工作流中的操作时,OOZIE会将这些库配置为配置属性(这是一个DistributedCache属性).

然后,Hadoop将负责每个作业将这些jar复制到每个集群节点,然后使用classpath配置属性中的jar配置任务 mapred.job.classpath.files

因此,在回答您的第二个问题时,它们将被复制到工作流中的每个操作,而不是每个协调员工作一次.因此,如果您有一个具有4个mapreduce操作的wf作业,那么这些库将在该工作流的生命周期中被复制到每个任务跟踪器(仅参与mapreduce作业的那些任务跟踪器)4次.