Hadoop上的外部/ jar文件存储在哪里？

Question

让我说我写一个WordCount示例,然后在eclipse项目中包含一个外部jar文件,如MyJar.jar.现在,如果我将整个WordCount项目导出为word.jar文件,然后键入

$> hadoop jar word.jar WordCount input output

我知道作业执行,word.jar将有一个包含MyJar.jar文件的lib目录.现在,HDFS将在作业运行时存储此jar文件MyJar文件,从而调用此jar文件的方法？

Answer 1

bin/hadoop脚本实际上将您的work.jar文件解压缩到本地文件系统上的tmp文件夹中.

作业客户端处理在HDFS中创建作业文件夹,其中将原始jar,所有lib jar和其他作业文件(例如job.xml,分布式缓存文件等)上载到.

当您的作业在群集节点上运行时,这些文件将被复制回该节点的本地文件系统上的tmp作业目录.出于效率原因,文件仅被复制一次,而不是复制到在该节点上运行的每个映射任务.