我正在尝试从 S3 存储桶将大型 CSV(~5GB)加载到 Pandas 中。
以下是我为 1.4 kb 的小型 CSV 尝试的代码:
client = boto3.client('s3')
obj = client.get_object(Bucket='grocery', Key='stores.csv')
body = obj['Body']
csv_string = body.read().decode('utf-8')
df = pd.read_csv(StringIO(csv_string))
Run Code Online (Sandbox Code Playgroud)
这适用于小型 CSV,但我无法通过此实现将 5GB csv 加载到 Pandas 数据帧的要求(可能是由于 StringIO 加载 csv 时的内存限制)。
我也试过下面的代码
s3 = boto3.client('s3')
obj = s3.get_object(Bucket='bucket', Key='key')
df = pd.read_csv(obj['Body'])
Run Code Online (Sandbox Code Playgroud)
但这给出了以下错误。
ValueError: Invalid file path or buffer object type: <class 'botocore.response.StreamingBody'>
Run Code Online (Sandbox Code Playgroud)
非常感谢解决此错误的任何帮助。
我通过sagemaker实现了机器学习算法.
我已经为.net安装了SDK,并尝试执行下面的代码.
Uri sagemakerEndPointURI = new Uri("https://runtime.sagemaker.us-east-2.amazonaws.com/endpoints/MyEndpointName/invocations");
Amazon.SageMakerRuntime.Model.InvokeEndpointRequest request = new Amazon.SageMakerRuntime.Model.InvokeEndpointRequest();
request.EndpointName = "MyEndpointName";
AmazonSageMakerRuntimeClient aawsClient = new AmazonSageMakerRuntimeClient(myAwsAccessKey,myAwsSecreteKey);
Amazon.SageMakerRuntime.Model.InvokeEndpointResponse resposnse= aawsClient.InvokeEndpoint(request);
Run Code Online (Sandbox Code Playgroud)
通过执行此操作,我得到验证错误为" 1 validation error detected: Value at 'body' failed to satisfy constraint: Member must not be null"
任何人都可以指导我如何以及需要传递多少输入数据来调用给定的API?
编辑
此外,我尝试通过provinding body参数,其中包含由'.gz'或'.pkl'文件编写的MemoryStream,并且它给出了错误:"错误解组来自AWS的响应,HTTP内容长度超过5246976字节."
编辑1/23/2018
此外,我想出了错误消息
错误 - 模型服务器 - 'TypeError'对象没有属性'message'
谢谢
在预处理2 gb的s3中存储的数据时,在Amazon Sagemaker中发生内存错误。加载数据没有问题。数据量为700万行和64列。一种热编码也是不可能的。这样做会导致内存错误。笔记本实例为ml.t2.medium。如何解决这个问题?
我不认为我问这个问题是对的,但我有 jupyter notebook,它使用我编写的 python 训练脚本启动 Tensorflow 训练作业。
该培训脚本需要某些模块。似乎我的 sagemaker 培训工作失败了,因为某些模块不存在。
如何确保我的训练作业脚本具有所需的所有模块?
编辑
这些模块之一的示例是keras.
奇怪的是,我可以import keras在 jupyter 笔记本中,但是当该导入语句在我的训练脚本中时,我会收到No module named keras错误消息
我正在尝试使用 AWS Integration 从 api 网关调用 sagemaker 推理端点。我不想在 API 网关和 sagemaker 运行时之间使用 lamdba。我按照这个文档设置 api 网关方法,但失败了。
如何从 API 网关调用 sagemaker 推理端点?
Web 浏览器 ----> API 网关 ----> Sagemaker 端点
在 Amazon SageMaker 上,当实例不活动时,可以编辑笔记本实例的大多数属性,但似乎无法更改其名称。
有没有办法重命名现有的 SageMaker 笔记本实例?
我可以使用 boto3 启动/停止 Sagemaker 笔记本,但如何运行.py其中的 jupyter 笔记本或脚本?
这是我将从本地环境或 lambda 运行的东西(但这没问题)。
启动 Sagemaker 笔记本实例:
import boto3
client = boto3.client('sagemaker')
client.start_notebook_instance(
NotebookInstanceName='sagemaker-notebook-name'
)
Run Code Online (Sandbox Code Playgroud)
在 UI 中,我只需单击“打开 Jupyter”,然后运行.py其中的笔记本或脚本。
但我想用 boto3 或其他程序以编程方式完成此操作。
我里面的文件名为lemmatize-input-data.ipynb.
这一定是可能的,但我不确定如何?
我也尝试过:
在“启动笔记本”生命周期配置脚本中,创建一个更简单的测试文件后,调用test_script.ipynb以确定它不是我的 jupyter 笔记本中的高级内容导致错误。
set -e
jupyter nbconvert --execute test_script.ipynb
Run Code Online (Sandbox Code Playgroud)
但得到了错误:
[NbConvertApp] 警告 | 模式“test_script.ipynb”没有匹配任何文件
python amazon-web-services boto3 jupyter-notebook amazon-sagemaker
是否可以获得亚马逊sagemaker笔记本实例的公共IP?
我想知道是否可以使用公共 IP 进行 ssh 访问以进行远程调试。
我尝试使用下面的curl命令获取公共IP
$curl http://169.254.169.254/latest/meta-data
Run Code Online (Sandbox Code Playgroud)
这只是列出本地 IP,而不是公共 IP。
我也尝试了下面的命令。
$curl ifconfig.me
Run Code Online (Sandbox Code Playgroud)
这将返回一个 IP 地址,例如13.232.96.15. 如果我尝试 ssh 进入它,它不起作用。
我们还有其他方法可以做到这一点吗?
注意:安全组中已开放 ssh 端口 22
使用AWS Sagemeker运行TensorFlow 2.0的最佳方法是什么?
截至今天(2019年8月7日),AWS不提供TensorFlow 2.0 SageMaker容器,因此我的理解是我需要构建自己的容器。
什么是最好的基本映像使用?示例Dockerfile?
无法运行 AWS Glue Sagemaker Notebook,它在启动时抛出错误。如果我错过了什么,有人可以告诉我吗?
PS:按照错误日志中的建议,我重新启动了内核几次,但没有帮助。
import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job
glueContext = GlueContext(SparkContext.getOrCreate())
Run Code Online (Sandbox Code Playgroud)
错误
The code failed because of a fatal error:
Error sending http request and maximum retry encountered..
Some things to try:
a) Make sure Spark has enough available resources for Jupyter to create a Spark context.
b) Contact your Jupyter administrator to make sure the Spark magics library is …Run Code Online (Sandbox Code Playgroud) amazon-sagemaker ×10
python ×3
amazon-s3 ×2
tensorflow ×2
apache-spark ×1
boto3 ×1
c# ×1
csv ×1
pyspark ×1
python-3.x ×1
sparkr ×1