Ale*_* N. 6 mercurial hadoop repository organization
我开始一个新的Hadoop项目,它将有多个hadoop作业(因此有多个jar文件).使用mercurial进行源代码控制,我想知道组织存储库结构的最佳方法是什么?每个作业应该是独立的回购,还是更有效地将它们保持在一致,但是分解成文件夹?
如果您正在对 Hadoop 作业进行管道化(一个作业的输出是另一个作业的输入),我发现最好将其中大部分保留在同一个存储库中,因为我倾向于生成许多可以在各种应用中使用的常用方法。先生职位。
就我个人而言,我将流作业与更传统的作业保存在单独的存储库中,因为通常没有依赖性。
您打算使用 DistributedCache 或流作业吗?您可能需要一个单独的目录来存放您分发的文件。每个 Hadoop 作业真的需要一个 JAR 吗?我发现我没有。
如果您提供有关您计划使用 Hadoop 做什么的更多详细信息,我可以看到我还能提出什么建议。