una*_*orn 1 jupyter-notebook aws-glue amazon-sagemaker
我有一份机器学习工作,想与 Sagemaker 一起运行。对于数据准备和转换,我使用一些 numpy 和 pandas 步骤通过笔记本来转换它们。
我注意到 AWS Glue 有Sagemaker 和 Zeppelin 笔记本,可以通过开发端点创建
网上没有太多信息,我可以找到使用其中一种的区别和好处(即 Sagemaker 笔记本并从 s3 导入与从 Glue 创建笔记本)
根据我的研究和尝试,我似乎可以用两者实现相同的目标:
任何人都能够阐明这一点吗?
这个问题不清楚,但让我解释一下这一点。
当您启动 Glue 开发终端节点时,您可以连接 SageMaker 笔记本或 Zeppelin 笔记本。两者都将由 Glue 创建和配置,并且您的脚本将在 Glue Dev 端点上执行。
如果您的问题是“从 Glue 控制台创建的 SageMaker 笔记本与从 SageMaker 控制台创建的 SageMaker 笔记本有什么区别?
当您从 Glue 控制台创建笔记本实例时,创建的笔记本将始终启用公共互联网访问。本博客解释了 SM 笔记本电脑的网络配置之间的差异。您还无法创建具有特定磁盘大小的笔记本,但您可以在创建笔记本后停止笔记本并增加磁盘大小。
如果您的问题是“SageMaker 笔记本和 Zeppelin 笔记本之间有什么区别?”
答案是第一个使用 Jupter(非常流行),而第二个使用 Zeppelin。
如果您的问题是“仅使用 SageMaker 笔记本与使用 SM 笔记本 + Glue dev Endpoint 之间有什么区别?”
答案是:如果你运行普通的pandas + numpy而不使用Spark,SM笔记本要便宜得多(如果你使用小型实例类型并且数据相对较小)。但是,如果您正在尝试处理大型数据集并且计划使用 Spark,那么 SM 笔记本 + Glue Dev 端点将是开发作业的最佳选择,该作业稍后将作为 Glue 作业(转换作业)(服务器较少的)。
SM 笔记本就像在 EC2 实例上运行 python 代码,而 SM 笔记本 + Glue 用于开发 ETL 作业,您可以启动这些作业来处理增量。
| 归档时间: |
|
| 查看次数: |
3579 次 |
| 最近记录: |