标签: amazon-sagemaker

在 AWS Sagemaker 中使用 python pandas 从 S3 存储桶中读取大型 csv

我正在尝试从 S3 存储桶将大型 CSV(~5GB)加载到 Pandas 中。

以下是我为 1.4 kb 的小型 CSV 尝试的代码:

client = boto3.client('s3') 
obj = client.get_object(Bucket='grocery', Key='stores.csv')
body = obj['Body']
csv_string = body.read().decode('utf-8')
df = pd.read_csv(StringIO(csv_string))
Run Code Online (Sandbox Code Playgroud)

这适用于小型 CSV,但我无法通过此实现将 5GB csv 加载到 Pandas 数据帧的要求(可能是由于 StringIO 加载 csv 时的内存限制)。

我也试过下面的代码

s3 = boto3.client('s3')
obj = s3.get_object(Bucket='bucket', Key='key')
df = pd.read_csv(obj['Body'])
Run Code Online (Sandbox Code Playgroud)

但这给出了以下错误。

ValueError: Invalid file path or buffer object type: <class 'botocore.response.StreamingBody'>
Run Code Online (Sandbox Code Playgroud)

非常感谢解决此错误的任何帮助。

python csv amazon-s3 amazon-sagemaker

7
推荐指数
1
解决办法
1万
查看次数

如何在C#中调用Sagemaker培训模型端点API

我通过sagemaker实现了机器学习算法.

我已经为.net安装了SDK,并尝试执行下面的代码.

Uri sagemakerEndPointURI = new Uri("https://runtime.sagemaker.us-east-2.amazonaws.com/endpoints/MyEndpointName/invocations");
Amazon.SageMakerRuntime.Model.InvokeEndpointRequest request = new Amazon.SageMakerRuntime.Model.InvokeEndpointRequest();
request.EndpointName = "MyEndpointName";
AmazonSageMakerRuntimeClient aawsClient = new AmazonSageMakerRuntimeClient(myAwsAccessKey,myAwsSecreteKey);            
Amazon.SageMakerRuntime.Model.InvokeEndpointResponse resposnse= aawsClient.InvokeEndpoint(request);
Run Code Online (Sandbox Code Playgroud)

通过执行此操作,我得到验证错误为" 1 validation error detected: Value at 'body' failed to satisfy constraint: Member must not be null"

任何人都可以指导我如何以及需要传递多少输入数据来调用给定的API?

编辑

此外,我尝试通过provinding body参数,其中包含由'.gz'或'.pkl'文件编写的MemoryStream,并且它给出了错误:"错误解组来自AWS的响应,HTTP内容长度超过5246976字节."

编辑1/23/2018

此外,我想出了错误消息

错误 - 模型服务器 - 'TypeError'对象没有属性'message'

谢谢

c# amazon-s3 amazon-web-services sparkr amazon-sagemaker

7
推荐指数
1
解决办法
1190
查看次数

亚马逊Sagemaker中的内存错误

在预处理2 gb的s3中存储的数据时,在Amazon Sagemaker中发生内存错误。加载数据没有问题。数据量为700万行和64列。一种热编码也是不可能的。这样做会导致内存错误。笔记本实例为ml.t2.medium。如何解决这个问题?

amazon-sagemaker

7
推荐指数
2
解决办法
2718
查看次数

您如何在 sagemaker 培训工作中安装模块?

我不认为我问这个问题是对的,但我有 jupyter notebook,它使用我编写的 python 训练脚本启动 Tensorflow 训练作业。

该培训脚本需要某些模块。似乎我的 sagemaker 培训工作失败了,因为某些模块不存在。

如何确保我的训练作业脚本具有所需的所有模块?

编辑

这些模块之一的示例是keras.

奇怪的是,我可以import keras在 jupyter 笔记本中,但是当该导入语句在我的训练脚本中时,我会收到No module named keras错误消息

tensorflow amazon-sagemaker

7
推荐指数
2
解决办法
5732
查看次数

如何使用 API 网关调用 sagemaker 推理端点

我正在尝试使用 AWS Integration 从 api 网关调用 sagemaker 推理端点。我不想在 API 网关和 sagemaker 运行时之间使用 lamdba。我按照这个文档设置 api 网关方法,但失败了。

如何从 API 网关调用 sagemaker 推理端点?

Web 浏览器 ----> API 网关 ----> Sagemaker 端点

amazon-web-services aws-api-gateway amazon-sagemaker

7
推荐指数
1
解决办法
5584
查看次数

如何重命名 SageMaker 笔记本实例?

在 Amazon SageMaker 上,当实例不活动时,可以编辑笔记本实例的大多数属性,但似乎无法更改其名称。

有没有办法重命名现有的 SageMaker 笔记本实例?

amazon-sagemaker

7
推荐指数
1
解决办法
2087
查看次数

如何从本地环境以编程方式运行 jupyter 笔记本(在 Sagemaker 笔记本内)

我可以使用 boto3 启动/停止 Sagemaker 笔记本,但如何运行.py其中的 jupyter 笔记本或脚本?

这是我将从本地环境或 lambda 运行的东西(但这没问题)。

启动 Sagemaker 笔记本实例:

import boto3

client = boto3.client('sagemaker')

client.start_notebook_instance(
    NotebookInstanceName='sagemaker-notebook-name'
)
Run Code Online (Sandbox Code Playgroud)

文档

在 UI 中,我只需单击“打开 Jupyter”,然后运行.py其中的笔记本或脚本。

在此输入图像描述

但我想用 boto3 或其他程序以编程方式完成此操作。

我里面的文件名为lemmatize-input-data.ipynb.

这一定是可能的,但我不确定如何?

我也尝试过:

在“启动笔记本”生命周期配置脚本中,创建一个更简单的测试文件后,调用test_script.ipynb以确定它不是我的 jupyter 笔记本中的高级内容导致错误。

set -e

jupyter nbconvert --execute test_script.ipynb
Run Code Online (Sandbox Code Playgroud)

但得到了错误:

[NbConvertApp] 警告 | 模式“test_script.ipynb”没有匹配任何文件

python amazon-web-services boto3 jupyter-notebook amazon-sagemaker

7
推荐指数
1
解决办法
8556
查看次数

如何获取亚马逊Sagemaker笔记本实例的公共IP?是否可以?

是否可以获得亚马逊sagemaker笔记本实例的公共IP?

我想知道是否可以使用公共 IP 进行 ssh 访问以进行远程调试。

我尝试使用下面的curl命令获取公共IP

$curl http://169.254.169.254/latest/meta-data
Run Code Online (Sandbox Code Playgroud)

这只是列出本地 IP,而不是公共 IP。

我也尝试了下面的命令。

$curl ifconfig.me
Run Code Online (Sandbox Code Playgroud)

这将返回一个 IP 地址,例如13.232.96.15. 如果我尝试 ssh 进入它,它不起作用。

我们还有其他方法可以做到这一点吗?

注意:安全组中已开放 ssh 端口 22

amazon-web-services python-3.x amazon-sagemaker

7
推荐指数
1
解决办法
7965
查看次数

SageMaker和TensorFlow 2.0

使用AWS Sagemeker运行TensorFlow 2.0的最佳方法是什么?

截至今天(2019年8月7日),AWS不提供TensorFlow 2.0 SageMaker容器,因此我的理解是我需要构建自己的容器

什么是最好的基本映像使用?示例Dockerfile?

tensorflow amazon-sagemaker tensorflow2.0

7
推荐指数
2
解决办法
770
查看次数

AWS Glue Spark Sagemaker Notebook 出现故障

无法运行 AWS Glue Sagemaker Notebook,它在启动时抛出错误。如果我错过了什么,有人可以告诉我吗?

PS:按照错误日志中的建议,我重新启动了内核几次,但没有帮助。

import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job

glueContext = GlueContext(SparkContext.getOrCreate())
Run Code Online (Sandbox Code Playgroud)

错误

The code failed because of a fatal error:
    Error sending http request and maximum retry encountered..

Some things to try:
a) Make sure Spark has enough available resources for Jupyter to create a Spark context.
b) Contact your Jupyter administrator to make sure the Spark magics library is …
Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark amazon-sagemaker

7
推荐指数
1
解决办法
1986
查看次数