Azure Data Lake VS Azure HDInsight

Ask*_*kMe 10 azure hdinsight azure-data-lake

我正在浏览Microsoft文档:

https://docs.microsoft.com/en-us/azure/data-lake-store/data-lake-store-overview

我是Azure Data lake和HDInsight的新手.URL中有一条声明告诉我们

"Azure Data Lake Store can be accessed from Hadoop (available with HDInsight cluster) using the WebHDFS-compatible REST APIs."
Run Code Online (Sandbox Code Playgroud)

根据我最初的理解,Data lake store是一个可以存储任何类型数据的商店.我认为,HDInsight也有同样的事情.

我的问题是Azure Data湖和Azure HDInsight有什么区别?如果HDInsight可以用于文件存储或任何类型的存储,那么为什么要使用Data Lake?如果有人可以详细说明这一点,那就太棒了.谢谢.

Ned*_*d G 11

想想Data Lake最简单的方法就是想到这个大型集装箱就像一个真正的湖泊,河流进入河流,你永远不知道河流的来源(或河流的"类型").Azure Data Lake的引入使开发人员,数据科学家和分析人员可以轻松地存储大数据,以存储任何大小的数据.它消除了摄取和存储所有数据的复杂性,同时加快了大数据的启动和运行速度.Data Lake能够存储大量不同类型的数据(结构化数据,非结构化数据,日志文件,实时,图像等)并将它们混合在一起,以关联许多不同的数据类型.这里的关键是我们正在从传统方式转向现代工具(如Hadoop,Cassandra,NoSQL DB等).Azure Data Lake包含三项服务:

  • Azure Data Lake Store,一个支持大数据分析的无限数据湖
  • Azure Data Lake Analytics,一种大规模并行的按需作业服务
  • Azure HDInsight,完全托管的云Hadoop和Spark产品

在此输入图像描述

Azure Data Lake Store就像基于云的文件服务或文件系统,其大小几乎无限制.我们可以在该商店中的数据之上运行服务.因此,您可以在HDInsight群集中使用Hadoop或Spark ,或者您可以使用Azure Data Lake分析服务,该服务是Azure Data Lake Store的补充.您可以使用的服务是运行有效查询存储在Azure Data Lake存储中的数据并生成输出结果的作业.


Ana*_*mar 6

简而言之,

Hdinsight is a managed hadoop service (to provide compute support)

Azure Data lake(ADL) is a managed storage service (to provide large amount of storage support)
Run Code Online (Sandbox Code Playgroud)

(除了 ADL,您也可以选择在 HDinsight 中使用 Blob,但 Blob 有一些限制(例如不支持通过 hdinsight 集群将文件流式传输到存储)

以下是 Azure 文档中的定义(如下):

Azure 使用“分解硬件方法”

您可以将 HDinsight 关联或假设为 Hadoop 集群,将 Azure 数据湖 (ADL) 关联或假设为 HDFS。但他们是分离的。

如果要和AWS联系起来,HDInsight相当于EMR,ADL相当于EMRFS或S3

如果您终止集群,ADL 存储将保留其中存储的文件。您可以使用另一种服务或工具(如 Azure 数据块)直接访问存储,也可以在数据之上创建另一个 hdinsight 集群。

Hdinsight 使用 adl:// 访问 ADL,并且 hdinsight 从不将文件块存储在节点中(就像 Hadoop 那样),而是具有到存储服务的映射。


小智 4

Azure Data Lake Store 只是一个数据存储。HDInsight 还可以在您启动的群集中执行此操作。但是,当您停止该集群时,数据也会消失。

客户通常使用 Azure Data Lake Store 或 Azure 存储来提供与用于处理数据的群集(计算)分开的永久存储。

盖伊