Cod*_*key 6 rsync google-cloud-storage google-cloud-platform gsutil
我刚刚开始使用 GCS 作为我的网络服务器的备份。一台服务器有 120 万个 JPEG(3.5TB),并且所有这些都在 10 个小时左右的时间内完美同步。
另一个有 250 万个 JPEG(尽管只是缩略图/预览 - 总共 300GB)。我第一次这样做时,“构建同步状态”很快就完成了 250 万次。几分钟。虽然我的会话被中断了(wifi 掉线了),当我通过 SSH 尝试再次运行它时,“在源列表中”提示迅速咬住了 10000、20000、30000。然后几乎停止了。半小时后,才到了三十万。我知道它也必须确定目的地有哪些文件,但我认为这不会显着减慢“在源列表中...”的回声?
它是否表明我的文件系统有问题,如果是,我应该检查什么?
还是出于某种原因,这是预期的行为?
尝试将 gsutil rsync 与 200 万个文件一起使用到一个存储桶中是个坏主意吗?我找不到谷歌关于一个存储桶中可以放置多少文件的指南,所以我假设它是数十亿/无限的?
FWIW 文件都在嵌套的子目录中,任何一个目录中的文件都不超过 2000 个。
谢谢
编辑:我使用的确切命令是:
gsutil -m rsync -r /var/www/ gs://mybucketname/var/www
Run Code Online (Sandbox Code Playgroud)
我发现改变
output_chunk.writelines(unicode(''.join(current_chunk)))
Run Code Online (Sandbox Code Playgroud)
到
output_chunk.write(unicode(''.join(current_chunk)))
Run Code Online (Sandbox Code Playgroud)
在 /gsutil/gslib/commands/rsync.py 中有很大的不同。感谢 GS 团队的 Mike 的帮助——这个简单的改变已经在 github 上推出了:
https://github.com/GoogleCloudPlatform/gsutil/commit/a6dcc7aa7706bf9deea3b1d243ecf048a06a64f2
| 归档时间: |
|
| 查看次数: |
2701 次 |
| 最近记录: |