我正在尝试在免费套餐 AWS Sagemaker 中创建 XGBoost 模型。我收到以下错误:
\n\n“ResourceLimitExceeded:调用 CreateEndpoint 操作时发生错误 (ResourceLimitExceeded):帐户级服务限制“端点使用的ml.m5.xlarge”为 0 个实例,当前利用率为 0 个实例,请求增量为 1 个实例”。。
\n\n我应该使用什么正确的 train_instance_type ?
\n\n这是我的代码:
\n\n# import libraries\nimport boto3, re, sys, math, json, os, sagemaker, urllib.request\nfrom sagemaker import get_execution_role\nimport numpy as np \nimport pandas as pd \nimport matplotlib.pyplot as plt \nfrom IPython.display import Image \nfrom IPython.display import display \nfrom time import gmtime, strftime \nfrom sagemaker.predictor import csv_serializer \n\n# Define IAM role\nrole = get_execution_role()\nprefix = \'sagemaker/DEMO-xgboost-dm\'\ncontainers = {\'us-west-2\': \'433757028032.dkr.ecr.us-west-2.amazonaws.com/xgboost:latest\',\n \'us-east-1\': \'811284229777.dkr.ecr.us-east-1.amazonaws.com/xgboost:latest\',\n …Run Code Online (Sandbox Code Playgroud) 为什么我需要AWS SageMaker的容器?如果我想在SageMaker的Jupyter笔记本上运行Scikit Learn用于自学习目的,我还需要为它配置Container吗?
如果我只是想学习Scikit Learn,我需要SageMaker的最低配置是什么?例如,我想运行Scikit Learn的决策树算法,其中包含一组训练数据和一组测试数据.我需要在SageMaker上执行哪些任务才能执行此操作?谢谢.
我正在 P2.xlarge 实例中训练我的模型。当我下载数据集时,出现以下错误:“下载或解压期间出现异常:[Errno 28] 设备上没有剩余空间”\ 我检查 P2.xlarge 有 61GiB 存储空间,转换为 64GB。我的实例中几乎没有 5GB 的数据。您能让我知道如何继续吗?
我有一个 jupyter notebook 脚本,它只是启动一个训练脚本,大概是在一个 docker 容器中。
我在该训练脚本中添加了一些打印语句,但它没有显示在笔记本或 CloudWatch 中。
我正在使用常规的 print() 语句。我应该如何从训练脚本记录调试?
我想在 Sagemaker 的 jupyter 笔记本中导入自定义模块。尝试从 Untitled1.ipynb 导入我尝试了两种不同的结构。第一个是:
“包文件夹”内有文件“cross_validation.py”和“ init .py”。已尝试以下命令:
from package import cross_validation
import package.cross_validation
Run Code Online (Sandbox Code Playgroud)
第二个是
我已经编码了 import cross_validation
在这两种情况下,导入时我根本没有收到错误,但我无法使用模块内的类,因为我收到错误名称Class_X is not defined
我还重新启动了笔记本电脑,以防万一,但它仍然无法正常工作。我怎样才能做到呢?
我正在尝试在 AWS 上训练神经网络 (Tensorflow)。我有一些 AWS 积分。根据我的理解,AWS SageMaker 是最适合这项工作的。我设法在 SageMaker 上加载了 Jupyter Lab 控制台并试图找到一个 GPU 内核,因为我知道它是训练神经网络的最佳选择。但是,我找不到这样的内核。
任何人都可以在这方面提供帮助。
感谢和最好的问候
迈克尔
AWS 实例的数量与 Nginx 和 Gunicorn 工作线程有何关系?
AWS Sagemaker 使用serve 命令调用存储在ECR 中的docker 容器。实例的数量和类型在估计器(sage.estimator.Estimator)中设置,但是,每个 docker 容器都有 Nginx 和 Gunicorn 设置。
是否启动了一个较小的实例来执行 nginx proxy_pass?请求是否在线程级别在每个容器内进行代理?
https://docs.aws.amazon.com/sagemaker/latest/dg/how-it-works-hosting.html
https://docs.aws.amazon.com/sagemaker/latest/dg/adv-bring-own-examples.html
在恢复或重新启动 sagemaker-studio 时,我会弹出以下消息。
即使清除工作区后,它也不会打开。经过几次这样的重试后,Jupiter notebook (sagemaker studio / IDE) 就会打开。我每次重新连接时都会收到这条消息,每次都浪费了大约 15 分钟:(
我在停止/关闭 sagemaker 工作室时做错了什么吗?
我尝试使用 docker 构建 detectorron2 映像,以便与 AWS SageMaker 一起使用。dockerfile 看起来像这样:
ARG REGION="eu-central-1"
FROM 763104351884.dkr.ecr.$REGION.amazonaws.com/pytorch-training:1.6.0-gpu-py36-cu101-ubuntu16.04
RUN pip install --upgrade torch==1.6.0+cu101 torchvision==0.7.0+cu101 -f https://download.pytorch.org/whl/torch_stable.html
############# Detectron2 section ##############
RUN pip install \
--no-cache-dir pycocotools~=2.0.0 \
--no-cache-dir https://dl.fbaipublicfiles.com/detectron2/wheels/cu101/torch1.6/detectron2-0.4%2Bcu101-cp36-cp36m-linux_x86_64.whl
ENV FORCE_CUDA="1"
# Build D2 only for Volta architecture - V100 chips (ml.p3 AWS instances)
# ENV TORCH_CUDA_ARCH_LIST="Volta"
# Set a fixed model cache directory. Detectron2 requirement
ENV FVCORE_CACHE="/tmp"
############# SageMaker section ##############
COPY container_training/sku-110k /opt/ml/code
WORKDIR /opt/ml/code
ENV SAGEMAKER_SUBMIT_DIRECTORY /opt/ml/code
ENV SAGEMAKER_PROGRAM training.py
WORKDIR / …Run Code Online (Sandbox Code Playgroud) amazon-web-services docker deep-learning amazon-ecr amazon-sagemaker
我想在俄亥俄州地区创建 Sagemaker studio 域,但出现 \xe2\x86\x91 错误。\n我还确认了 vpc 存在(无默认值)并且存在一个子网。
\n我该如何修复该错误?请分享您的知识。
\namazon-sagemaker ×10
python ×2
amazon-ecr ×1
boto3 ×1
docker ×1
gunicorn ×1
import ×1
nginx ×1
scikit-learn ×1
tensorflow ×1