AWS Sagemaker 与 Databricks 的用例有何不同?

L X*_*dor 4 apache-spark pyspark databricks amazon-sagemaker

我一直在关注 Databricks,因为它与 Kinesis 等 AWS 服务集成,但在我看来,SageMaker 是 Databricks 的直接竞争对手?我们大量使用 AWS,是否有任何理由将 DataBricks 添加到堆栈中或 odes SageMaker 充当相同的角色?

kev*_*und 9

去年在这两种环境中工作过,我特别记得:

  • Databricks可以轻松访问存储的数据库/表,以便在 Jupyter Notebook 中查询和使用 Scala/Spark。我记得看到并预览模式并快速查询并开始研究竞赛是多么美好。我还记得在笔记本上设置定时作业(每月重新运行)并通过单击一些按钮重新缩放到作业实例类型(便宜得多)的快速功能。这些功能可能存在于 AWS 中的某个地方,但我记得它在 Databricks 中非常棒。

  • AWS SageMaker + Lambda + API Gateway:今天,我正式完成了 AWS SageMaker + Lambda + API Gateway 的部署,在习惯了 Lambda + API Gateway 的一些语法和细节后,一切变得非常简单。进行另一次 AWS 部署不会花费超过 20 分钟(具体情况待定)。其他诸如模型监控和 CloudWatch 之类的东西也很好。我确实注意到了许多语言的 Jupyter Notebook 内核,例如 Python(我使用的语言)、R 和 Scala,以及已经预安装的特定软件包,例如 conda 和 sagemaker ml 软件包和方法。


sen*_*nus 7

SageMaker 是一个很好的部署工具,它简化了很多配置容器的流程,你只需要写 2-3 行代码就可以将模型部署为端点并使用它。SageMaker 还提供了支持 Python 和 Scala(sparkmagic 内核)开发的开发平台(Jupyter Notebook),我在 jupyter notebook 中安装了外部 Scala 内核。总的来说,SageMaker 提供端到端的 ML 服务。Databricks 为 Spark 开发提供了无与伦比的 Notebook 环境。

结论

  1. Databricks 是一个更好的大数据(scala、pyspark)开发平台。(无与伦比的笔记本环境)

  2. SageMaker 更适合部署。如果您不处理大数据,SageMaker 是一个完美的选择(Jupyter notebook + Sklearn + 成熟容器 + 超级简单部署)。

  3. SageMaker 提供“实时推理”,非常容易构建和部署,非常令人印象深刻。您可以查看官方 SageMaker Github。 https://github.com/awslabs/amazon-sagemaker-examples/tree/master/sagemaker-python-sdk/scikit_learn_inference_pipeline

  • 如果您正在使用 Spark 进行大数据分析。我建议使用 Databricks + SageMaker。(我认为 Databricks 对于非常大的分析项目来说更昂贵)。Spark ML 管道 + SageMaker 端点部署和 cloudwatch 监控非常完美。但如果您正在处理小数据。数据块不是必需的。Jupyter 笔记本搭配 SageMaker 就足够了。 (2认同)