在 sagemaker 中进行预测之前，如何预处理输入数据？

Question

在 sagemaker 中进行预测之前，如何预处理输入数据？

gas*_*shu 6 aws-java-sdk amazon-sagemaker

我正在使用 java Sagemaker SDK 调用 Sagemaker 端点。我发送的数据在模型可以用于预测之前几乎不需要清理。我怎么能在 Sagemaker 中做到这一点。

我在 Jupyter 笔记本实例中有一个预处理功能，它在传递该数据以训练模型之前清理训练数据。现在我想知道我是否可以在调用端点时使用该函数，或者该函数是否已被使用？如果有人想要，我可以显示我的代码吗？

编辑 1 基本上，在预处理中，我正在做标签编码。这是我的预处理功能

def preprocess_data(data):
 print("entering preprocess fn")
 # convert document id & type to labels
 le1 = preprocessing.LabelEncoder()
 le1.fit(data["documentId"])
 data["documentId"]=le1.transform(data["documentId"])
 le2 = preprocessing.LabelEncoder()
 le2.fit(data["documentType"])
 data["documentType"]=le2.transform(data["documentType"])
 print("exiting preprocess fn")
 return data,le1,le2

Run Code Online (Sandbox Code Playgroud)

这里的“数据”是一个熊猫数据框。

现在我想在调用端点时使用这些 le1,le2。我想在 sagemaker 本身而不是在我的 java 代码中进行这个预处理。

Answer 1

Ram*_*man 2

您需要编写一个脚本并在创建模型时提供该脚本。该脚本将有一个 input_fn ，您可以在其中进行预处理。请参阅 aws 文档了解更多详细信息。

https://docs.aws.amazon.com/sagemaker/latest/dg/mxnet-training-inference-code-template.html

归档时间：	7 年，11 月前
查看次数：	3365 次
最近记录：	7 年，1 月前