将 Google Colab 笔记本中的 Huggingface 缓存设置到 Google Drive

Moh*_*sha 3 google-drive-api google-colaboratory huggingface

我正在使用 Google Colab 来实现 Huggingface 代码。

将 Colab 环境中的 Huggingface 缓存目录更改为我的 Google Drive (GDrive) 的最佳方法是什么,这样我们就不需要下载缓存的内容,即语言模型、数据集等。每次我们启动 Colab 环境?相反,只需在 Colab 中重定向 Huggingface 即可使用 GDrive。

我尝试在Colab中设置相关环境变量,仍然在Colab运行环境中下载内容:

export TRANSFORMERS_CACHE='/content/drive/MyDrive/Colab Notebooks/NLP/HuggingfaceCash'
export HF_DATASETS_CACHE='/content/drive/MyDrive/Colab Notebooks/NLP/HuggingfaceCash/Datasets'
Run Code Online (Sandbox Code Playgroud)

Moh*_*sha 5

对于任何感兴趣的人,我尝试了以下(使用 python 代码),并且效果很好。内容缓存在 Google 云端硬盘中。

import os
os.environ['TRANSFORMERS_CACHE'] = '/content/drive/MyDrive/Colab Notebooks/NLP/HuggingfaceCash'
os.environ['HF_DATASETS_CACHE'] = '/content/drive/MyDrive/Colab Notebooks/NLP/HuggingfaceCash/Datasets'
Run Code Online (Sandbox Code Playgroud)

另外,在 Stackoverflow上找到了另一个替代方案

您可以在命令本身中设置缓存目录,但没有尝试:

tokenizer = AutoTokenizer.from_pretrained("roberta-base", cache_dir="new_cache_dir/")

model = AutoModelForMaskedLM.from_pretrained("roberta-base", cache_dir="new_cache_dir/")
Run Code Online (Sandbox Code Playgroud)