小编Bat*_*men的帖子

有没有办法在 aws sagemaker 笔记本实例上获得更多根(临时)卷?

Aws sagemaker 笔记本实例具有约 104GB 的固定根卷大小,其中约 15GB 是免费的(可用)。

Docker 使用这个临时内存(/var/lib/docker据我所知)。

当我尝试构建 docker 映像来创建自定义训练作业时,使用中的临时根卷会爆炸,系统会抛出“设备上没有剩余空间”错误。

我尝试删除 anaconda 目录(~62 GB),但是随后,boto3 和 sagemaker python 库停止工作。

解决问题的最佳方法是什么?

我尝试构建重型 Dockerfile 来推送 ECR :

ARG REGION="us-east-1"

FROM 763104351884.dkr.ecr.$REGION.amazonaws.com/pytorch-training:1.8.1-gpu-py36-cu111-ubuntu18.04

RUN pip3 install torch==1.8.2+cu111 torchvision==0.9.2+cu111 -f https://download.pytorch.org/whl/lts/1.8/torch_lts.html

RUN python3 -m pip install detectron2 -f \
  https://dl.fbaipublicfiles.com/detectron2/wheels/cu111/torch1.8/index.html

ENV FORCE_CUDA="1"

ENV TORCH_CUDA_ARCH_LIST="Volta"

ENV FVCORE_CACHE="/tmp"

############# SageMaker section ##############

COPY tested_train_src/train_src /opt/ml/code
WORKDIR /opt/ml/code

ENV SAGEMAKER_SUBMIT_DIRECTORY /opt/ml/code
ENV SAGEMAKER_PROGRAM train.py

WORKDIR /

ENTRYPOINT ["bash", "-m", "start_with_right_hostname.sh"]
Run Code Online (Sandbox Code Playgroud)

构建命令:

docker build -t image-name:tag …
Run Code Online (Sandbox Code Playgroud)

amazon-web-services amazon-sagemaker

3
推荐指数
1
解决办法
1698
查看次数