Starcoder 微调 - 如何选择 GPU 以及如何估计微调所需的时间

Aad*_*rni 6 deep-learning language-model pytorch huggingface large-language-model

我想在我的数据集和 GCP VM 实例上微调 Starcoder ( https://huggingface.co/bigcode/starcoder )。

文档中称,为了训练模型,他们使用了 512 个 Tesla A100 GPU,花了 24 天。

我还在 HuggingFace 的文件部分中看到了模型(.bin)文件(https://huggingface.co/bigcode/starcoder/tree/main

模型总大小约为64GB

根据所有这些信息,

  1. 如何确定哪个 GPU 最适合对我的数据集进行微调?
  2. 如何估计finetune 需要的时间?(例如,基于 epoch=1 等参数的假设)
  3. 选择硬件/计算时间是否考虑其他因素?