awr*_*019 2 python amazon-web-services amazon-sagemaker
我将在一个相当大的数据集上运行 ml 模型。它大约 15 GB,有 200 列和 430 万行。我想知道 AWS Sagemaker 中此类数据集的最佳 Notebook 实例类型是什么。
要选择 SageMaker 托管的笔记本类型:
您打算在笔记本上对内存中的数据进行所有预处理,还是打算使用外部服务来编排 ETL?
如果您计划将数据集加载到笔记本实例的内存中以进行探索/预处理,这里的主要瓶颈将是确保实例有足够的内存用于您的数据集。这至少需要 16gb 类型 ( .xlarge )(此处提供ML 实例类型的完整列表)。此外,根据预处理的计算密集程度以及所需的预处理完成时间,您可以选择计算优化实例 ( c4, c5 ) 来加快速度。
对于培训工作,特别是:
使用 Amazon SageMaker SDK,您的训练数据将被加载并分发到训练集群,从而使您的训练作业与运行托管笔记本的实例完全分离。
确定用于训练的理想实例类型将取决于您选择/训练作业的算法是内存、CPU 还是 IO 限制。由于您的数据集可能会从 S3 加载到您的训练集群中,您为托管笔记本选择的实例将不会影响您的训练工作的速度。
广义上: 当谈到 SageMaker 笔记本时,最佳实践是将您的笔记本用作“木偶操纵者”或协调器,调用外部服务(AWS Glue 或 Amazon EMR 进行预处理、SageMaker 进行训练、S3 进行存储等) . 最好将它们视为用于构建和启动实验管道的计算/存储的临时形式。
这将使您能够将计算、存储和托管资源/服务与您的工作负载需求更紧密地配对,最终使您无需为潜在或未使用的资源付费,从而获得最大的收益。
| 归档时间: |
|
| 查看次数: |
1018 次 |
| 最近记录: |