gsutil rsync 上的同步阶段很慢?

Cod*_*key 6 rsync google-cloud-storage google-cloud-platform gsutil

我刚刚开始使用 GCS 作为我的网络服务器的备份。一台服务器有 120 万个 JPEG(3.5TB),并且所有这些都在 10 个小时左右的时间内完美同步。

另一个有 250 万个 JPEG(尽管只是缩略图/预览 - 总共 300GB)。我第一次这样做时,“构建同步状态”很快就完成了 250 万次。几分钟。虽然我的会话被中断了(wifi 掉线了),当我通过 SSH 尝试再次运行它时,“在源列表中”提示迅速咬住了 10000、20000、30000。然后几乎停止了。半小时后,才到了三十万。我知道它也必须确定目的地有哪些文件,但我认为这不会显着减慢“在源列表中...”的回声?

它是否表明我的文件系统有问题,如果是,我应该检查什么?

还是出于某种原因,这是预期的行为?

尝试将 gsutil rsync 与 200 万个文件一起使用到一个存储桶中是个坏主意吗?我找不到谷歌关于一个存储桶中可以放置多少文件的指南,所以我假设它是数十亿/无限的?

FWIW 文件都在嵌套的子目录中,任何一个目录中的文件都不超过 2000 个。

谢谢

编辑:我使用的确切命令是:

gsutil -m rsync -r /var/www/ gs://mybucketname/var/www
Run Code Online (Sandbox Code Playgroud)

Cod*_*key 5

我发现改变

output_chunk.writelines(unicode(''.join(current_chunk)))
Run Code Online (Sandbox Code Playgroud)

output_chunk.write(unicode(''.join(current_chunk)))
Run Code Online (Sandbox Code Playgroud)

在 /gsutil/gslib/commands/rsync.py 中有很大的不同。感谢 GS 团队的 Mike 的帮助——这个简单的改变已经在 github 上推出了:

https://github.com/GoogleCloudPlatform/gsutil/commit/a6dcc7aa7706bf9deea3b1d243ecf048a06a64f2