我什么时候应该使用 Azure ML Notebooks 和 Azure Databricks?我认为两者都是竞争对手的产品

der*_*t71 11 machine-learning azure databricks azure-machine-learning-service

非常不言自明的问题。我什么时候应该使用 Azure ML Notebooks 和 Azure Databricks?我觉得\xe2\x80\x99s这两种产品之间有很大的重叠,其中一种产品的营销肯定比另一种更好。

\n\n

I\xe2\x80\x99m 主要寻找有关数据集大小和典型工作流程的信息。如果我没有面向 Spark 的工作流程,为什么应该使用 Databricks 而不是 AzureML?

\n\n

谢谢 !

\n

小智 13

@Nethim,从我的角度来看,这些是主要区别:

  1. 数据分布:

    • 当您在单台机器上使用有限的数据进行训练时,Azure ML Notebook 非常有用。虽然Azure ML提供了训练集群,但节点之间的数据分布是在代码中处理的。
    • Azure Databricks 及其 RDD 旨在处理分布在多个节点上的数据。当您的数据量很大时,这是有利的。当您的数据量很小并且可以适应扩大的单台机器/您正在使用 pandas dataframe 时,然后使用Azure databricks 的使用有点大材小用
  2. 数据清理:Databricks 可以原生支持多种文件格式,并且查询和清理大型数据集很容易,因为这必须在 AzureML 笔记本中进行自定义处理。这可以通过 aml 笔记本来完成,但必须处理清理和写入商店的工作。

  3. 训练 两者都具有分布式训练的功能,Databricks 提供内置的 ML 算法,可以作用于该节点上的数据块并与其他节点协调。虽然这可以通过 tf、horovod 等在 AzureMachineLearning 和 Databricks 上完成,

一般来说(只是我的观点),如果数据集很小,aml笔记本就很好。如果数据量很大,那么Azure databricks很容易进行数据清理和格式转换。然后训练可以在AML或databricks上进行。虽然databricks有学习曲线很长,而 Azure ML 使用 python 和 pandas 可以很容易。

谢谢。