Hadoop与Data Lake合作

Kis*_*ore 15 hadoop data-warehouse data-lake

我听到了一个新术语Data Lake.我用Google搜索并得到了它

数据湖是一个大型存储库和处理引擎.数据湖提供"为任何类型的数据提供海量存储,巨大的处理能力以及处理几乎无限的并发任务或工作的能力"

术语数据湖通常与面向Hadoop的对象存储相关联.在这种情况下,组织的数据首先被加载到Hadoop平台,然后业务分析和数据挖掘工具应用于它驻留在商用计算机的Hadoop集群节点上的数据.

Hadoop也做了同样的事情.我们有用于存储的HDFS和用于计算的MapReduce.我对Hadoop和Data湖有点困惑.两者之间有什么区别.如果它们是相同的,为什么这个术语出现.或者如何定义数据湖.

fac*_*cha 14

Data Lake是一个抽象的"想法".Hadoop是特定的技术/软件.您可以使用hadoop或使用不同的工具实现数据湖.

  • 维基百科可以被任何人编辑。FAT32 也可以用来存储东西。 (2认同)

Pra*_*K S 5

Data Lake是一种将数据存储在系统中的方法,该方法有助于按变体方案和结构形式(通常是对象Blob或文件)整理数据。

数据湖的概念与Apache Hadoop及其开源项目生态系统紧密相关。关于数据湖的所有讨论很快导致对如何使用Apache Hadoop生态系统的功能来构建数据湖的描述。它之所以受欢迎,是因为它提供了一种经济高效且技术可行的方式来应对大数据挑战。组织正在发现数据湖是其现有数据体系结构的演进。

以下白皮书将作为使用Hadoop构建数据湖的一个出色示例。