AWS Sagemaker 与 Databricks 的用例有何不同？

Question

AWS Sagemaker 与 Databricks 的用例有何不同？

L X*_*dor 4 apache-spark pyspark databricks amazon-sagemaker

我一直在关注 Databricks，因为它与 Kinesis 等 AWS 服务集成，但在我看来，SageMaker 是 Databricks 的直接竞争对手？我们大量使用 AWS，是否有任何理由将 DataBricks 添加到堆栈中或 odes SageMaker 充当相同的角色？

Answer 1

kev*_*und 9

去年在这两种环境中工作过，我特别记得：

Databricks可以轻松访问存储的数据库/表，以便在 Jupyter Notebook 中查询和使用 Scala/Spark。我记得看到并预览模式并快速查询并开始研究竞赛是多么美好。我还记得在笔记本上设置定时作业（每月重新运行）并通过单击一些按钮重新缩放到作业实例类型（便宜得多）的快速功能。这些功能可能存在于 AWS 中的某个地方，但我记得它在 Databricks 中非常棒。
AWS SageMaker + Lambda + API Gateway：今天，我正式完成了 AWS SageMaker + Lambda + API Gateway 的部署，在习惯了 Lambda + API Gateway 的一些语法和细节后，一切变得非常简单。进行另一次 AWS 部署不会花费超过 20 分钟（具体情况待定）。其他诸如模型监控和 CloudWatch 之类的东西也很好。我确实注意到了许多语言的 Jupyter Notebook 内核，例如 Python（我使用的语言）、R 和 Scala，以及已经预安装的特定软件包，例如 conda 和 sagemaker ml 软件包和方法。

Answer 2

sen*_*nus 7

SageMaker 是一个很好的部署工具，它简化了很多配置容器的流程，你只需要写 2-3 行代码就可以将模型部署为端点并使用它。SageMaker 还提供了支持 Python 和 Scala（sparkmagic 内核）开发的开发平台（Jupyter Notebook），我在 jupyter notebook 中安装了外部 Scala 内核。总的来说，SageMaker 提供端到端的 ML 服务。Databricks 为 Spark 开发提供了无与伦比的 Notebook 环境。

结论

Databricks 是一个更好的大数据（scala、pyspark）开发平台。（无与伦比的笔记本环境）
SageMaker 更适合部署。如果您不处理大数据，SageMaker 是一个完美的选择（Jupyter notebook + Sklearn + 成熟容器 + 超级简单部署）。
SageMaker 提供“实时推理”，非常容易构建和部署，非常令人印象深刻。您可以查看官方 SageMaker Github。 https://github.com/awslabs/amazon-sagemaker-examples/tree/master/sagemaker-python-sdk/scikit_learn_inference_pipeline

如果您正在使用 Spark 进行大数据分析。我建议使用 Databricks + SageMaker。（我认为 Databricks 对于非常大的分析项目来说更昂贵）。Spark ML 管道 + SageMaker 端点部署和 cloudwatch 监控非常完美。但如果您正在处理小数据。数据块不是必需的。Jupyter 笔记本搭配 SageMaker 就足够了。 (2认同)

归档时间：	6 年，9 月前
查看次数：	6867 次
最近记录：	5 年，4 月前