标签: amazon-sagemaker

XGBoost(免费套餐)的 Amazon Sagemaker ResourceLimitExceeded 错误

我正在尝试在免费套餐 AWS Sagemaker 中创建 XGBoost 模型。我收到以下错误:

\n\n

“ResourceLimitExceeded:调用 CreateEndpoint 操作时发生错误 (ResourceLimitExceeded):帐户级服务限制“端点使用的ml.m5.xlarge”为 0 个实例,当前利用率为 0 个实例,请求增量为 1 个实例”。

\n\n

我应该使用什么正确的 train_instance_type ?

\n\n

这是我的代码:

\n\n
# import libraries\nimport boto3, re, sys, math, json, os, sagemaker, urllib.request\nfrom sagemaker import get_execution_role\nimport numpy as np                                \nimport pandas as pd                               \nimport matplotlib.pyplot as plt                   \nfrom IPython.display import Image                 \nfrom IPython.display import display               \nfrom time import gmtime, strftime                 \nfrom sagemaker.predictor import csv_serializer   \n\n# Define IAM role\nrole = get_execution_role()\nprefix = \'sagemaker/DEMO-xgboost-dm\'\ncontainers = {\'us-west-2\': \'433757028032.dkr.ecr.us-west-2.amazonaws.com/xgboost:latest\',\n              \'us-east-1\': \'811284229777.dkr.ecr.us-east-1.amazonaws.com/xgboost:latest\',\n …
Run Code Online (Sandbox Code Playgroud)

python amazon-web-services boto3 amazon-sagemaker

9
推荐指数
2
解决办法
2万
查看次数

AWS SageMaker最低配置

为什么我需要AWS SageMaker的容器?如果我想在SageMaker的Jupyter笔记本上运行Scikit Learn用于自学习目的,我还需要为它配置Container吗?

如果我只是想学习Scikit Learn,我需要SageMaker的最低配置是什么?例如,我想运行Scikit Learn的决策树算法,其中包含一组训练数据和一组测试数据.我需要在SageMaker上执行哪些任务才能执行此操作?谢谢.

scikit-learn amazon-sagemaker

8
推荐指数
1
解决办法
678
查看次数

设备上没有剩余空间 [Amazon SageMaker]

我正在 P2.xlarge 实例中训练我的模型。当我下载数据集时,出现以下错误:“下载或解压期间出现异常:[Errno 28] 设备上没有剩余空间”\ 我检查 P2.xlarge 有 61GiB 存储空间,转换为 64GB。我的实例中几乎没有 5GB 的数据。您能让我知道如何继续吗?

amazon-sagemaker

8
推荐指数
2
解决办法
2万
查看次数

如何打印来自 Sagemaker 培训的调试信息?

我有一个 jupyter notebook 脚本,它只是启动一个训练脚本,大概是在一个 docker 容器中。

我在该训练脚本中添加了一些打印语句,但它没有显示在笔记本或 CloudWatch 中。

我正在使用常规的 print() 语句。我应该如何从训练脚本记录调试?

jupyter-notebook amazon-sagemaker

8
推荐指数
2
解决办法
3260
查看次数

在 Amazon Sagemaker Jupyter 笔记本中导入自定义模块

我想在 Sagemaker 的 jupyter 笔记本中导入自定义模块。尝试从 Untitled1.ipynb 导入我尝试了两种不同的结构。第一个是:

在此输入图像描述

“包文件夹”内有文件“cross_validation.py”和“ init .py”。已尝试以下命令:

from package import cross_validation
import package.cross_validation
Run Code Online (Sandbox Code Playgroud)

第二个是

埃马克

我已经编码了 import cross_validation

在这两种情况下,导入时我根本没有收到错误,但我无法使用模块内的类,因为我收到错误名称Class_X is not defined

我还重新启动了笔记本电脑,以防万一,但它仍然无法正常工作。我怎样才能做到呢?

python import jupyter-notebook amazon-sagemaker

8
推荐指数
2
解决办法
1万
查看次数

GPU 上的 AWS SageMaker

我正在尝试在 AWS 上训练神经网络 (Tensorflow)。我有一些 AWS 积分。根据我的理解,AWS SageMaker 是最适合这项工作的。我设法在 SageMaker 上加载了 Jupyter Lab 控制台并试图找到一个 GPU 内核,因为我知道它是训练神经网络的最佳选择。但是,我找不到这样的内核。

任何人都可以在这方面提供帮助。

感谢和最好的问候

迈克尔

amazon-web-services tensorflow amazon-sagemaker

8
推荐指数
1
解决办法
7032
查看次数

部署期间如何在 aws sagemaker 中使用 nginx?

AWS 实例的数量与 Nginx 和 Gunicorn 工作线程有何关系?

AWS Sagemaker 使用serve 命令调用存储在ECR 中的docker 容器。实例的数量和类型在估计器(sage.estimator.Estimator)中设置,但是,每个 docker 容器都有 Nginx 和 Gunicorn 设置。

是否启动了一个较小的实例来执行 nginx proxy_pass?请求是否在线程级别在每个容器内进行代理?

https://docs.aws.amazon.com/sagemaker/latest/dg/how-it-works-hosting.html

https://docs.aws.amazon.com/sagemaker/latest/dg/adv-bring-own-examples.html

machine-learning nginx gunicorn amazon-sagemaker

8
推荐指数
0
解决办法
934
查看次数

每次连接“开放工作室”时,Sagemaker Studio 都会错误加载屏幕以清除工作区

在恢复或重新启动 sagemaker-studio 时,我会弹出以下消息。

Sagemaker-Studio 正在加载.. 清除工作区错误屏幕

即使清除工作区后,它也不会打开。经过几次这样的重试后,Jupiter notebook (sagemaker studio / IDE) 就会打开。我每次重新连接时都会收到这条消息,每次都浪费了大约 15 分钟:(

我在停止/关闭 sagemaker 工作室时做错了什么吗?

amazon-web-services jupyter-notebook amazon-sagemaker

8
推荐指数
1
解决办法
475
查看次数

如何解决使用 docker 拉取 aws 深度学习容器时出现 Unauthorized Access 401 错误?

我尝试使用 docker 构建 detectorron2 映像,以便与 AWS SageMaker 一起使用。dockerfile 看起来像这样:

ARG REGION="eu-central-1"

FROM 763104351884.dkr.ecr.$REGION.amazonaws.com/pytorch-training:1.6.0-gpu-py36-cu101-ubuntu16.04

RUN pip install --upgrade torch==1.6.0+cu101 torchvision==0.7.0+cu101 -f https://download.pytorch.org/whl/torch_stable.html

############# Detectron2 section ##############
RUN pip install \
    --no-cache-dir pycocotools~=2.0.0 \
    --no-cache-dir https://dl.fbaipublicfiles.com/detectron2/wheels/cu101/torch1.6/detectron2-0.4%2Bcu101-cp36-cp36m-linux_x86_64.whl

   
ENV FORCE_CUDA="1"
# Build D2 only for Volta architecture - V100 chips (ml.p3 AWS instances)
# ENV TORCH_CUDA_ARCH_LIST="Volta"

# Set a fixed model cache directory. Detectron2 requirement
ENV FVCORE_CACHE="/tmp"

############# SageMaker section ##############

COPY container_training/sku-110k /opt/ml/code
WORKDIR /opt/ml/code

ENV SAGEMAKER_SUBMIT_DIRECTORY /opt/ml/code
ENV SAGEMAKER_PROGRAM training.py

WORKDIR / …
Run Code Online (Sandbox Code Playgroud)

amazon-web-services docker deep-learning amazon-ecr amazon-sagemaker

8
推荐指数
1
解决办法
1万
查看次数

SageMaker ValidationException:“subnetIds”处的值“[]”未能满足约束


\n

检测到 1 个验证错误\n“subnetIds”处的值“[]”未能满足约束: 成员的长度必须大于或等于 1

\n

我想在俄亥俄州地区创建 Sagemaker studio 域,但出现 \xe2\x86\x91 错误。\n我还确认了 vpc 存在(无默认值)并且存在一个子网。

\n

我该如何修复该错误?请分享您的知识。

\n

amazon-sagemaker

8
推荐指数
1
解决办法
3178
查看次数