前向同步到 HDFS?(或继续不完整的 hdfs 上传?)

Nat*_*ray 5 synchronization rsync hadoop hdfs

有人对 HDFS 前向同步有什么好的建议吗?(“前向同步”与“双向同步”相反)

基本上我有大量的文件要放入 HDFS。它太大了,以至于我经常会在它完成之前失去连接。我想做的只是对我的文件上传做一个“简历”。但是hadoop fs -put只会再次上传整个目录(或抱怨它是否存在)。

有人有继续不完整的hdfs上传的好方法吗?

Rob*_*vak 1

如果您运行的是足够新的 Hadoop,则可以使用 FUSE 挂载 hdfs,然后仅使用 rsync。

也可以构建一个仅限本地的 hdfs,然后使用 distcp。