Aws sagemaker 笔记本实例具有约 104GB 的固定根卷大小,其中约 15GB 是免费的(可用)。
Docker 使用这个临时内存(/var/lib/docker据我所知)。
当我尝试构建 docker 映像来创建自定义训练作业时,使用中的临时根卷会爆炸,系统会抛出“设备上没有剩余空间”错误。
我尝试删除 anaconda 目录(~62 GB),但是随后,boto3 和 sagemaker python 库停止工作。
解决问题的最佳方法是什么?
我尝试构建重型 Dockerfile 来推送 ECR :
ARG REGION="us-east-1"
FROM 763104351884.dkr.ecr.$REGION.amazonaws.com/pytorch-training:1.8.1-gpu-py36-cu111-ubuntu18.04
RUN pip3 install torch==1.8.2+cu111 torchvision==0.9.2+cu111 -f https://download.pytorch.org/whl/lts/1.8/torch_lts.html
RUN python3 -m pip install detectron2 -f \
https://dl.fbaipublicfiles.com/detectron2/wheels/cu111/torch1.8/index.html
ENV FORCE_CUDA="1"
ENV TORCH_CUDA_ARCH_LIST="Volta"
ENV FVCORE_CACHE="/tmp"
############# SageMaker section ##############
COPY tested_train_src/train_src /opt/ml/code
WORKDIR /opt/ml/code
ENV SAGEMAKER_SUBMIT_DIRECTORY /opt/ml/code
ENV SAGEMAKER_PROGRAM train.py
WORKDIR /
ENTRYPOINT ["bash", "-m", "start_with_right_hostname.sh"]
Run Code Online (Sandbox Code Playgroud)
构建命令:
docker build -t image-name:tag …Run Code Online (Sandbox Code Playgroud)