标签: amazon-sagemaker

在 AWS Sagemaker 中使用 python pandas 从 S3 存储桶中读取大型 csv

我正在尝试从 S3 存储桶将大型 CSV（~5GB）加载到 Pandas 中。

以下是我为 1.4 kb 的小型 CSV 尝试的代码：

client = boto3.client('s3') 
obj = client.get_object(Bucket='grocery', Key='stores.csv')
body = obj['Body']
csv_string = body.read().decode('utf-8')
df = pd.read_csv(StringIO(csv_string))

Run Code Online (Sandbox Code Playgroud)

这适用于小型 CSV，但我无法通过此实现将 5GB csv 加载到 Pandas 数据帧的要求（可能是由于 StringIO 加载 csv 时的内存限制）。

我也试过下面的代码

s3 = boto3.client('s3')
obj = s3.get_object(Bucket='bucket', Key='key')
df = pd.read_csv(obj['Body'])

Run Code Online (Sandbox Code Playgroud)

但这给出了以下错误。

ValueError: Invalid file path or buffer object type: <class 'botocore.response.StreamingBody'>

Run Code Online (Sandbox Code Playgroud)

非常感谢解决此错误的任何帮助。

python csv amazon-s3 amazon-sagemaker

Dil*_*ody

lucky-day

7
推荐指数

1
解决办法

1万
查看次数

如何在C#中调用Sagemaker培训模型端点API

我通过sagemaker实现了机器学习算法.

我已经为.net安装了SDK,并尝试执行下面的代码.

Uri sagemakerEndPointURI = new Uri("https://runtime.sagemaker.us-east-2.amazonaws.com/endpoints/MyEndpointName/invocations");
Amazon.SageMakerRuntime.Model.InvokeEndpointRequest request = new Amazon.SageMakerRuntime.Model.InvokeEndpointRequest();
request.EndpointName = "MyEndpointName";
AmazonSageMakerRuntimeClient aawsClient = new AmazonSageMakerRuntimeClient(myAwsAccessKey,myAwsSecreteKey);            
Amazon.SageMakerRuntime.Model.InvokeEndpointResponse resposnse= aawsClient.InvokeEndpoint(request);

Run Code Online (Sandbox Code Playgroud)

通过执行此操作,我得到验证错误为" 1 validation error detected: Value at 'body' failed to satisfy constraint: Member must not be null"

任何人都可以指导我如何以及需要传递多少输入数据来调用给定的API？

编辑

此外,我尝试通过provinding body参数,其中包含由'.gz'或'.pkl'文件编写的MemoryStream,并且它给出了错误:"错误解组来自AWS的响应,HTTP内容长度超过5246976字节."

编辑1/23/2018

此外,我想出了错误消息

错误 - 模型服务器 - 'TypeError'对象没有属性'message'

谢谢

c# amazon-s3 amazon-web-services sparkr amazon-sagemaker

Dib*_*iya

2018 01-23

7
推荐指数

1
解决办法

1190
查看次数

亚马逊Sagemaker中的内存错误

在预处理2 gb的s3中存储的数据时，在Amazon Sagemaker中发生内存错误。加载数据没有问题。数据量为700万行和64列。一种热编码也是不可能的。这样做会导致内存错误。笔记本实例为ml.t2.medium。如何解决这个问题？

amazon-sagemaker

VaR*_*abu

2018 07-24

7
推荐指数

2
解决办法

2718
查看次数

您如何在 sagemaker 培训工作中安装模块？

我不认为我问这个问题是对的，但我有 jupyter notebook，它使用我编写的 python 训练脚本启动 Tensorflow 训练作业。

该培训脚本需要某些模块。似乎我的 sagemaker 培训工作失败了，因为某些模块不存在。

如何确保我的训练作业脚本具有所需的所有模块？

编辑

这些模块之一的示例是keras.

奇怪的是，我可以import keras在 jupyter 笔记本中，但是当该导入语句在我的训练脚本中时，我会收到No module named keras错误消息

tensorflow amazon-sagemaker

kan*_*ane

2018 11-29

7
推荐指数

2
解决办法

5732
查看次数

如何使用 API 网关调用 sagemaker 推理端点

我正在尝试使用 AWS Integration 从 api 网关调用 sagemaker 推理端点。我不想在 API 网关和 sagemaker 运行时之间使用 lamdba。我按照这个文档设置 api 网关方法，但失败了。

如何从 API 网关调用 sagemaker 推理端点？

Web 浏览器 ----> API 网关 ----> Sagemaker 端点

amazon-web-services aws-api-gateway amazon-sagemaker

Nav*_*rma

2019 02-15

7
推荐指数

1
解决办法

5584
查看次数

如何重命名 SageMaker 笔记本实例？

在 Amazon SageMaker 上，当实例不活动时，可以编辑笔记本实例的大多数属性，但似乎无法更改其名称。

有没有办法重命名现有的 SageMaker 笔记本实例？

amazon-sagemaker

pbe*_*kes

2019 04-24

7
推荐指数

1
解决办法

2087
查看次数

如何从本地环境以编程方式运行 jupyter 笔记本（在 Sagemaker 笔记本内）

我可以使用 boto3 启动/停止 Sagemaker 笔记本，但如何运行.py其中的 jupyter 笔记本或脚本？

这是我将从本地环境或 lambda 运行的东西（但这没问题）。

启动 Sagemaker 笔记本实例：

import boto3

client = boto3.client('sagemaker')

client.start_notebook_instance(
    NotebookInstanceName='sagemaker-notebook-name'
)

Run Code Online (Sandbox Code Playgroud)

文档

在 UI 中，我只需单击“打开 Jupyter”，然后运行.py其中的笔记本或脚本。

但我想用 boto3 或其他程序以编程方式完成此操作。

我里面的文件名为lemmatize-input-data.ipynb.

这一定是可能的，但我不确定如何？

我也尝试过：

在“启动笔记本”生命周期配置脚本中，创建一个更简单的测试文件后，调用test_script.ipynb以确定它不是我的 jupyter 笔记本中的高级内容导致错误。

set -e

jupyter nbconvert --execute test_script.ipynb

Run Code Online (Sandbox Code Playgroud)

但得到了错误：

[NbConvertApp] 警告 | 模式“test_script.ipynb”没有匹配任何文件

python amazon-web-services boto3 jupyter-notebook amazon-sagemaker

tim*_*xyz

2019 05-15

7
推荐指数

1
解决办法

8556
查看次数

如何获取亚马逊Sagemaker笔记本实例的公共IP？是否可以？

是否可以获得亚马逊sagemaker笔记本实例的公共IP？

我想知道是否可以使用公共 IP 进行 ssh 访问以进行远程调试。

我尝试使用下面的curl命令获取公共IP

$curl http://169.254.169.254/latest/meta-data

Run Code Online (Sandbox Code Playgroud)

这只是列出本地 IP，而不是公共 IP。

我也尝试了下面的命令。

$curl ifconfig.me

Run Code Online (Sandbox Code Playgroud)

这将返回一个 IP 地址，例如13.232.96.15. 如果我尝试 ssh 进入它，它不起作用。

我们还有其他方法可以做到这一点吗？

注意：安全组中已开放 ssh 端口 22

amazon-web-services python-3.x amazon-sagemaker

Din*_*mar

lucky-day

7
推荐指数

1
解决办法

7965
查看次数

SageMaker和TensorFlow 2.0

使用AWS Sagemeker运行TensorFlow 2.0的最佳方法是什么？

截至今天（2019年8月7日），AWS不提供TensorFlow 2.0 SageMaker容器，因此我的理解是我需要构建自己的容器。

什么是最好的基本映像使用？示例Dockerfile？

tensorflow amazon-sagemaker tensorflow2.0

Ant*_*ton

2019 08-07

7
推荐指数

2
解决办法

770
查看次数

AWS Glue Spark Sagemaker Notebook 出现故障

无法运行 AWS Glue Sagemaker Notebook，它在启动时抛出错误。如果我错过了什么，有人可以告诉我吗？

PS：按照错误日志中的建议，我重新启动了内核几次，但没有帮助。

import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job

glueContext = GlueContext(SparkContext.getOrCreate())

Run Code Online (Sandbox Code Playgroud)

错误

The code failed because of a fatal error:
    Error sending http request and maximum retry encountered..

Some things to try:
a) Make sure Spark has enough available resources for Jupyter to create a Spark context.
b) Contact your Jupyter administrator to make sure the Spark magics library is …

Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark amazon-sagemaker

Nag*_*gam

2020 11-04

7
推荐指数

1
解决办法

1986
查看次数