Starcoder 微调 - 如何选择 GPU 以及如何估计微调所需的时间

Aad*_*rni 6 deep-learning language-model pytorch huggingface large-language-model

我想在我的数据集和 GCP VM 实例上微调 Starcoder ( https://huggingface.co/bigcode/starcoder )。

文档中称，为了训练模型，他们使用了 512 个 Tesla A100 GPU，花了 24 天。

我还在 HuggingFace 的文件部分中看到了模型（.bin）文件（https://huggingface.co/bigcode/starcoder/tree/main）

模型总大小约为64GB

根据所有这些信息，

如何确定哪个 GPU 最适合对我的数据集进行微调？
如何估计finetune 需要的时间？（例如，基于 epoch=1 等参数的假设）
选择硬件/计算时间是否考虑其他因素？

归档时间：	2 年，3 月前
查看次数：	587 次
最近记录：	2 年，3 月前

在PyTorch中保存训练模型的最佳方法？ 136

使用批量大小为'2的幂'在张量流上更快？ 7

PyTorch Cuda 与 anaconda 不可用 7

pytorch中的groupby聚合平均值 7

Tensorflow 2：获取“警告：tensorflow：最近 9 次对 <function> 的调用中的 9 次触发了 tf.function 重新跟踪。跟踪成本高昂” 6

如何将自定义 Pytorch 模型转换为 torchscript（pth 到 pt 模型）？ 6

Keras：在使用 model.fit 时修复“IndexError：list index out of range”错误 5

如何在pytorch中按行乘以标量？ 3

RobertaForSequenceClassification 的 logits 和概率代表什么？ 3

如何交错 5 个 PyTorch 张量？ 2

如何检查数组是否包含JavaScript中的对象？ 3778

为什么Java的+ =, - =,*=,/ =复合赋值运算符需要转换？ 3547

浮点数学是否破碎？ 2798

在Python中获取列表的最后一个元素 1871

如何"git克隆"包括子模块？ 1864

JavaScript切断/切片/修剪字符串中的最后一个字符 1840

如何克隆仅Git存储库的子目录？ 1298

如何撤消git reset --hard HEAD~1？ 1083

如何检查对象是否在JavaScript中有密钥？ 1047

如何在Ruby on Rails中获取当前的绝对URL？ 1030