HDFS 和 ADLS 有什么区别?

1 hadoop hadoop2 azure-data-lake

我对 Azure 数据湖存储与 HDFS 的不同之处感到困惑。有人可以用简单的术语解释一下吗?

Ven*_*n R 7

  • HDFS 是一个文件系统。HDFS 代表 Hadoop 分布式文件系统。它是 Apache Hadoop 生态系统的一部分。阅读有关 HDFS 的更多信息

  • ADLS 是 Microsoft 的 Azure 存储产品。ADLS 代表 Azure 数据湖存储。它提供分布式存储文件格式以满足批量数据处理需求。

    • ADLS 具有称为 Azure Blob 文件系统 (ABFS) 的内部分布式文件系统格式。此外,它还提供类似 Hadoop 的文件系统接口 API,使用 URI 方案来寻址 ADLS 内的文件和目录。这样,使用 HDFS 的应用程序可以更轻松地迁移到 ADLS,而无需更改代码。对于客户端来说,使用HDFS驱动访问HDFS,使用ABFS驱动访问ADLS也有类似的体验。

Azure Data Lake 存储 Gen2 URI

与 Azure Data Lake Storage Gen2 兼容的 Hadoop 文件系统驱动程序通过其方案标识符 abfs(Azure Blob 文件系统)来识别。与其他 Hadoop 文件系统驱动程序一致,ABFS 驱动程序采用 URI 格式来寻址具有 Data Lake Storage Gen2 功能的帐户内的文件和目录。

有关 Azure 数据湖存储的更多信息

Hadoop 兼容访问:Data Lake Storage Gen2 允许您像使用 Hadoop 分布式文件系统 (HDFS) 一样管理和访问数据。新的 ABFS 驱动程序可在所有 Apache Hadoop 环境中使用,包括 Azure HDInsight、Azure Databricks 和 Azure Synapse Analytics,以访问存储在 Data Lake Storage Gen2 中的数据。

另请更新 ,了解 Hadoop 兼容文件系统 (HCFS),它可确保分布式文件系统(如 Azure Blob 存储)API 满足与 Apache Hadoop 生态系统(类似于 HDFS)配合使用的一系列要求。有关 HCFS 的更多信息