Kis*_*ore 15 hadoop data-warehouse data-lake
我听到了一个新术语Data Lake.我用Google搜索并得到了它
数据湖是一个大型存储库和处理引擎.数据湖提供"为任何类型的数据提供海量存储,巨大的处理能力以及处理几乎无限的并发任务或工作的能力"
术语数据湖通常与面向Hadoop的对象存储相关联.在这种情况下,组织的数据首先被加载到Hadoop平台,然后业务分析和数据挖掘工具应用于它驻留在商用计算机的Hadoop集群节点上的数据.
Hadoop也做了同样的事情.我们有用于存储的HDFS和用于计算的MapReduce.我对Hadoop和Data湖有点困惑.两者之间有什么区别.如果它们是相同的,为什么这个术语出现.或者如何定义数据湖.
fac*_*cha 14
Data Lake是一个抽象的"想法".Hadoop是特定的技术/软件.您可以使用hadoop或使用不同的工具实现数据湖.