如何将数据从 Google Cloud Storage 导入 Google Colab

Shu*_*ari 16 google-cloud-storage google-colaboratory

目前我正在处理一个 10 GB 的数据集。我已将其上传到 google 云存储,但我不知道如何将其导入 google colab。

555*_*597 18

from google.colab import auth
auth.authenticate_user()
Run Code Online (Sandbox Code Playgroud)

运行后,将生成一个链接,您可以单击它并完成登录。

!echo "deb http://packages.cloud.google.com/apt gcsfuse-bionic main" > /etc/apt/sources.list.d/gcsfuse.list
!curl https://packages.cloud.google.com/apt/doc/apt-key.gpg | apt-key add -
!apt -qq update
!apt -qq install gcsfuse
Run Code Online (Sandbox Code Playgroud)

使用它在 colab 上安装 gcsfuse。Cloud Storage FUSE 是一个开源 FUSE 适配器,允许您将 Cloud Storage 存储分区作为文件系统挂载到 Colab、Linux 或 macOS 系统上。

!mkdir folderOnColab
!gcsfuse folderOnBucket/content/ folderOnColab
Run Code Online (Sandbox Code Playgroud)

使用它来挂载目录。(folderOnBucket 是没有 gs:// 部分的 GCS 存储桶 URL)

您可以使用此文档进一步阅读。https://cloud.google.com/storage/docs/gcs-fuse

  • 该解决方案效果很好!万一,gcp 数据/文件夹在 google colab 文件夹中仍然不可见。添加 --implicit-dirs 标志。更多信息在这里 - > /sf/answers/2682382181/ (3认同)