L X*_*dor 4 apache-spark pyspark databricks amazon-sagemaker
我一直在关注 Databricks,因为它与 Kinesis 等 AWS 服务集成,但在我看来,SageMaker 是 Databricks 的直接竞争对手?我们大量使用 AWS,是否有任何理由将 DataBricks 添加到堆栈中或 odes SageMaker 充当相同的角色?
去年在这两种环境中工作过,我特别记得:
Databricks可以轻松访问存储的数据库/表,以便在 Jupyter Notebook 中查询和使用 Scala/Spark。我记得看到并预览模式并快速查询并开始研究竞赛是多么美好。我还记得在笔记本上设置定时作业(每月重新运行)并通过单击一些按钮重新缩放到作业实例类型(便宜得多)的快速功能。这些功能可能存在于 AWS 中的某个地方,但我记得它在 Databricks 中非常棒。
AWS SageMaker + Lambda + API Gateway:今天,我正式完成了 AWS SageMaker + Lambda + API Gateway 的部署,在习惯了 Lambda + API Gateway 的一些语法和细节后,一切变得非常简单。进行另一次 AWS 部署不会花费超过 20 分钟(具体情况待定)。其他诸如模型监控和 CloudWatch 之类的东西也很好。我确实注意到了许多语言的 Jupyter Notebook 内核,例如 Python(我使用的语言)、R 和 Scala,以及已经预安装的特定软件包,例如 conda 和 sagemaker ml 软件包和方法。
SageMaker 是一个很好的部署工具,它简化了很多配置容器的流程,你只需要写 2-3 行代码就可以将模型部署为端点并使用它。SageMaker 还提供了支持 Python 和 Scala(sparkmagic 内核)开发的开发平台(Jupyter Notebook),我在 jupyter notebook 中安装了外部 Scala 内核。总的来说,SageMaker 提供端到端的 ML 服务。Databricks 为 Spark 开发提供了无与伦比的 Notebook 环境。
结论
Databricks 是一个更好的大数据(scala、pyspark)开发平台。(无与伦比的笔记本环境)
SageMaker 更适合部署。如果您不处理大数据,SageMaker 是一个完美的选择(Jupyter notebook + Sklearn + 成熟容器 + 超级简单部署)。
SageMaker 提供“实时推理”,非常容易构建和部署,非常令人印象深刻。您可以查看官方 SageMaker Github。 https://github.com/awslabs/amazon-sagemaker-examples/tree/master/sagemaker-python-sdk/scikit_learn_inference_pipeline
| 归档时间: |
|
| 查看次数: |
6867 次 |
| 最近记录: |