Wal*_*iti 5 python amazon-s3 amazon-sagemaker
我在 S3 中有一些数据,我想创建一个 lambda 函数来预测我部署的 aws sagemaker 端点的输出,然后我再次将输出放入 S3。在这种情况下是否有必要创建一个像此链接中描述的 api 网关?在 lambda 函数中我必须放什么。我希望放置(在哪里可以找到数据,如何调用端点,在哪里放置数据)
import boto3
import io
import json
import csv
import os
client = boto3.client('s3') #low-level functional API
resource = boto3.resource('s3') #high-level object-oriented API
my_bucket = resource.Bucket('demo-scikit-byo-iris') #subsitute this for your s3 bucket name.
obj = client.get_object(Bucket='demo-scikit-byo-iris', Key='foo.csv')
lines= obj['Body'].read().decode('utf-8').splitlines()
reader = csv.reader(lines)
import io
file = io.StringIO(lines)
# grab environment variables
runtime= boto3.client('runtime.sagemaker')
response = runtime.invoke_endpoint(
EndpointName= 'nilm2',
Body = file.getvalue(),
ContentType='*/*',
Accept = 'Accept')
output = response['Body'].read().decode('utf-8')
Run Code Online (Sandbox Code Playgroud)
我的数据是一个包含 2 列浮点数的 csv 文件,没有标题,问题是这些行返回一个字符串列表(每一行都是这个列表的一个元素:['11.55,65.23', '55.68,69.56'... ]) 调用运行良好,但响应也是一个字符串: output = '65.23\n,65.23\n,22.56\n,...'
那么如何将此输出作为 csv 文件保存到 S3
谢谢
小智 4
如果您的 Lambda 函数已安排,那么您将不需要 API 网关。但是,如果预测操作将由用户(例如应用程序)触发,则您将需要。
当您调用调用端点时,实际上您正在调用 SageMaker 端点,这与 API Gateway 端点不同。
SageMaker 的常见架构是:
根据您描述的情况,我无法判断您的任务是学术任务还是生产任务。
那么,如何从 Lambda 将数据保存为 CSV 文件呢?
我相信您可以解析输出,然后将文件上传到 S3。在这里你将手动解析或使用lib,使用boto3你可以上传文件。模型的输出取决于您在 SageMaker 映像上的实现。因此,如果您需要其他格式的响应数据,也许您需要使用自定义图像。我通常使用自定义图像,我可以定义如何处理请求/响应的数据。
就生产任务而言,我当然建议您检查 SageMaker 中的批量转换作业。您可以提供输入文件(S3 路径)和目标文件(另一个 S3 路径)。SageMaker 将运行批量预测并将结果保存在一个文件中。此外,您不需要将模型部署到端点,当此作业运行时,将创建端点的实例,下载要预测的数据,进行预测,上传输出,然后关闭实例。您只需要一个训练有素的模型。
以下是有关批量转换作业的一些信息:
https://docs.aws.amazon.com/sagemaker/latest/dg/how-it-works-batch.html
https://docs.aws.amazon.com/sagemaker/latest/dg/ex1-batch-transform.html
我希望它有帮助,如果需要更多信息,请告诉我。
问候。