Suk*_*aar 4 azure azure-data-lake
我阅读了微软关于它的文档。链接 -> https://docs.microsoft.com/en-us/azure/storage/blobs/data-lake-storage-namespace。但无法清楚地理解它。
任何人都可以帮助我用外行术语/简单的语言理解它吗?
此功能如何将 ADLS 与 Azure Blob 存储区分开来?
小智 14
数据存储和 Blob 存储之间的主要区别之一是分层命名空间。分层命名空间是数据存储 Gen 2 中非常重要的\xc2\xa0添加功能,如果您还记得在将我们的存储帐户转换为 Data Lake 时,我们启用了分层命名空间设置,这就是您的存储帐户转换为数据存储 Gen 2 帐户的方式。\ xc2\xa0
\n分层存储仅仅意味着对象和文件的集合被组织成文件夹树和嵌套文件夹,就像我们的计算机和笔记本电脑上的文件系统的组织方式一样。因此,基本上分层命名空间将对象或文件组织到目录层次结构中,以实现高效的数据访问。现在,如果您对 Blob 存储有一定的经验,您可能想知道为什么它不被视为分层存储。毕竟,Blob 通常以似乎包含文件夹和子文件夹的结构进行组织。然而,这只是一个命名约定,您可以在 blob 名称中添加斜杠来模拟树状层次结构。但它们实际上只是平面结构中的文件。但现在我确实可以有这些文件夹的概念了。但这个看似简单的改变实际上对大数据分析产生了巨大的影响。\xc2\xa0现在,如果你还记得的话,blob存储不支持这种分层结构,但Hadoop需要有这种分层命名空间才能与存储集成。这就是 Hadoop 无法与 blob 集成的原因。但数据湖支持分层命名空间。这使得像 Gen 2 这样的数据能够与 Hadoop 软件庞大的生态系统无缝集成。\xc2\xa0
\n现在,正如我在 blob 存储中所说,我们使用削减器来模拟树状目录结构。它在一定程度上是为了组织物体。但是,当涉及到移动、重命名或删除目录等操作时,这些斜杠之类的结构没有任何帮助,因为如果没有真正的目录,应用程序必须执行潜在的数百万个单独的 blob 来实现目录级任务。相比之下,分层命名空间通过更新单个条目来处理这些任务。所以 Gen 2 确实是可以管理的。删除、重命名都很简单。搬家很容易。您可以通过目录和子目录来组织、操作文件。\xc2\xa0\n用于在模拟文件夹上操作的 blob 存储。它必须对每个文件执行单独的操作。但如果您看到数据湖 Gen2,它被设计为对文件夹执行操作,因此可以非常快速地执行操作。让我来介绍一下这个问题的背景。想象一下,您在传统对象存储中有一个包含 5000 个文件的文件夹,假设您需要重命名该文件夹。如果您必须对 Blob 等其他对象故事执行此类操作,则意味着您必须执行 5000 个文件复制,然后执行 5000 个文件删除,所有这些都是因为您必须从前端执行这些操作。\xc2\xa0
\n但对于第二代数据湖,这些操作发生在后端。因此,对于您来说,这只是一次调用或一次操作。分层命名空间功能还显着提高了许多分析作业的整体性能。这种性能改进意味着您需要更少的计算能力来处理相同数量的数据。这意味着端到端分析工作的总拥有成本更低。现在 filesystem 文件系统已被开发人员和用户很好地理解了。\xc2\xa0
\n现在你可能会问为什么以前没有这样做。实际上,对象存储历史上不支持分层命名空间的原因之一是分层命名空间限制了可扩展性。但是,数据存储 Gen2 分层命名空间线性扩展,并且不会降低 data\xc2\xa0 容量或性能。在某些情况下,您实际上不想使用分层命名空间,因为某些工作负载可能无法通过启用分层命名空间获得任何好处。例如,如果您有图像存储或某些其他应用程序,其中对象\xc2\xa0组织与对象本身分开存储,或者存储在某种单独的\xc2\xa0数据库中。\xc2\xa0\n所以基本上这一切都取决于您的要求。
\n在您的\xc2\xa0account 上启用分层命名空间后,您无法恢复为平面命名空间。所以请记住这一点。我想现在我已经\xc2\xa0清除了什么是分层命名空间?以及分层命名空间如何使您的数据存储 Gen 2 在所有存储服务中非常特别\xc2\xa0。
\n小智 6
目前的总结是,分层命名空间在实践中将 Azure 存储更改为更像 ADLS Gen1 样式的存储,但会损失一些基于 Azure Blob 存储的功能。
分层命名空间为您带来:
同时,您将失去 Blob 存储功能,包括:
在实践中,您可能会遇到任何尝试与 Azure 存储交互的不一致的不兼容性。它可能 100% 工作,也可能完全拒绝工作(或者不将存储帐户列为选项,如果使用 Azure 门户 UI 向导),或者可能部分工作。在不知道底层实现的情况下,很难预测测试。
但是,事情仍然是流动的。肯定有迹象表明这些妥协将在路线图中得到解决,特别是基于已知问题列表https://docs.microsoft.com/en-us/azure/storage/blobs/data-lake-存储已知问题。
| 归档时间: |
|
| 查看次数: |
3969 次 |
| 最近记录: |