Sagemaker Notebook 实例类型推荐

Question

Sagemaker Notebook 实例类型推荐

awr*_*019 2 python amazon-web-services amazon-sagemaker

我将在一个相当大的数据集上运行 ml 模型。它大约 15 GB，有 200 列和 430 万行。我想知道 AWS Sagemaker 中此类数据集的最佳 Notebook 实例类型是什么。

Answer 1

要选择 SageMaker 托管的笔记本类型：

您打算在笔记本上对内存中的数据进行所有预处理，还是打算使用外部服务来编排 ETL？

如果您计划将数据集加载到笔记本实例的内存中以进行探索/预处理，这里的主要瓶颈将是确保实例有足够的内存用于您的数据集。这至少需要 16gb 类型 ( .xlarge )（此处提供ML 实例类型的完整列表）。此外，根据预处理的计算密集程度以及所需的预处理完成时间，您可以选择计算优化实例 ( c4, c5 ) 来加快速度。

对于培训工作，特别是：

使用 Amazon SageMaker SDK，您的训练数据将被加载并分发到训练集群，从而使您的训练作业与运行托管笔记本的实例完全分离。

确定用于训练的理想实例类型将取决于您选择/训练作业的算法是内存、CPU 还是 IO 限制。由于您的数据集可能会从 S3 加载到您的训练集群中，您为托管笔记本选择的实例将不会影响您的训练工作的速度。

广义上： 当谈到 SageMaker 笔记本时，最佳实践是将您的笔记本用作“木偶操纵者”或协调器，调用外部服务（AWS Glue 或 Amazon EMR 进行预处理、SageMaker 进行训练、S3 进行存储等） . 最好将它们视为用于构建和启动实验管道的计算/存储的临时形式。

这将使您能够将计算、存储和托管资源/服务与您的工作负载需求更紧密地配对，最终使您无需为潜在或未使用的资源付费，从而获得最大的收益。

归档时间：	6 年，6 月前
查看次数：	1018 次
最近记录：	6 年，6 月前