我听到了一个新术语Data Lake.我用Google搜索并得到了它
数据湖是一个大型存储库和处理引擎.数据湖提供"为任何类型的数据提供海量存储,巨大的处理能力以及处理几乎无限的并发任务或工作的能力"
术语数据湖通常与面向Hadoop的对象存储相关联.在这种情况下,组织的数据首先被加载到Hadoop平台,然后业务分析和数据挖掘工具应用于它驻留在商用计算机的Hadoop集群节点上的数据.
Hadoop也做了同样的事情.我们有用于存储的HDFS和用于计算的MapReduce.我对Hadoop和Data湖有点困惑.两者之间有什么区别.如果它们是相同的,为什么这个术语出现.或者如何定义数据湖.
我正在阅读有关 LakeFS 的文档,现在还不清楚什么是 LakeFS 的合并甚至合并冲突。
假设我使用 Apache Hudi 对单个表提供 ACID 支持。我想引入多表 ACID 支持,为此我想将 LakeFS 与 Hudi 一起使用。
如果我理解正确的话,lakeFS 是一个与数据无关的解决方案,对数据本身一无所知。LakeFS 仅建立边界(版本控制)并以某种方式调节对数据的并发访问。
所以合理的问题是——如果 LakeFS 与数据无关,它如何支持合并操作?合并本身对 LakeFS 意味着什么?那里有可能发生合并冲突吗?
我试图了解所有数据湖和大数据之间是否存在真正的区别,如果你检查这两个概念都像一个大存储库,它会保存信息直到有必要,那么,我们什么时候可以说我们正在使用大数据还是数据湖?
提前致谢
寻找高层差异/比较
当具体情况不详时,请使用相对比较。
是否可以在本地实施 Delta Lake?如果是,需要安装哪些软件/工具?
我正在尝试在本地实现 Delta Lake 来分析一些日志文件和数据库表。我现在的机器装的是ubuntu,apache Spark。不确定还需要什么其他工具。
是否还有其他工具建议来实施本地数据湖概念?
我想存储和查询大量原始事件数据。我想要使用的架构是“数据湖”架构,其中 S3 保存实际的事件数据,DynamoDB 用于对其进行索引并提供元数据。这是一个在很多地方都在谈论和推荐的架构:
但是,我很难理解如何使用 DynamoDB 来查询 S3 中的事件数据。在上面的 AWS 博客链接中,他们使用了存储多个不同服务器生成的客户事件的示例:
S3路径格式:[4-digit hash]/[server id]/[year]-[month]-[day]-[hour]-[minute]/[customer id]-[epoch timestamp].data
例如:a5b2/i-31cc02/2015-07-05-00-25/87423-1436055953839.data
在 DynamoDB 中记录此事件的架构如下所示:
Customer ID (Partition Key), Timestamp-Server (Sort Key), S3-Key, Size
87423, 1436055953839-i-31cc02, a5b2/i-31cc02/2015-07-05-00-25/87423-1436055953839.data, 1234
Run Code Online (Sandbox Code Playgroud)
我想执行一个查询,例如:“获取过去 24 小时内所有服务器生成的所有客户事件”,但据我了解,不使用分区键就不可能有效地查询 DynamoDB。我无法为此类查询指定分区键。
鉴于此要求,我是否应该使用 DynamoDB 以外的数据库来记录我的事件在 S3 中的位置?或者我只需要使用不同类型的 DynamoDB 架构?
比方说,datalake在AWS上.使用S3作为存储,使用Glue作为数据目录.因此,我们可以使用Glue作为Metastore轻松使用athena,redshift或EMR来查询S3上的数据.
我的问题是,是否可以将Glue数据目录公开为AWS上托管的Databricks等外部服务的Metastore?
我是数据治理的新手,如果问题缺少一些信息,请原谅我。
我们正在 Azure 平台上为中型电信公司从头开始构建数据湖和企业数据仓库。我们将 ADLS gen2、Databricks 和 Synapse 用于我们的 ETL 处理、数据科学、ML 和 QA 活动。
我们已经有大约一百个输入表和 25 TB/年。未来,我们期待更多。
企业有强烈的需求,倾向于与云无关的解决方案。他们仍然可以使用 Databricks,因为它可以在 AWS 和 Azure 上使用。
什么是最适合我们的堆栈和要求的数据治理解决方案?
我还没有使用任何数据治理解决方案。我喜欢AWS Data Lake解决方案,因为它提供开箱即用的基本功能。AFAIK,Azure 数据目录已过时,因为它不支持 ADLS gen2。
在非常快速的谷歌搜索之后,我找到了三个选项:
目前我什至不确定第三个选项是否完全支持我们的 Azure 堆栈。此外,它将有更大的开发(基础设施定义)工作。那么我有什么理由应该研究 Ranger/Atlas 的方向吗?
比 Immuta 更喜欢 Privacera 的原因是什么,反之亦然?
还有其他我应该评估的选项吗?
从数据治理的角度来看,我们只做了以下几件事:
我需要在AWS上构建一个数据湖,但我不知道S3与HDFS到底有什么不同。我在互联网上找到了一些答案,但我仍然不明白真正的区别。
我还需要知道是否有人有AWS中HDFS和S3的数据湖架构。
data-lake ×9
amazon-s3 ×3
databricks ×2
delta-lake ×2
amazon-ec2 ×1
apache-hudi ×1
architecture ×1
aws-glue ×1
azure ×1
bigdata ×1
comparison ×1
database ×1
datamart ×1
hadoop ×1
hdfs ×1
lakefs ×1