标签: data-lake

Hadoop与Data Lake合作

我听到了一个新术语Data Lake.我用Google搜索并得到了它

数据湖是一个大型存储库和处理引擎.数据湖提供"为任何类型的数据提供海量存储,巨大的处理能力以及处理几乎无限的并发任务或工作的能力"

术语数据湖通常与面向Hadoop的对象存储相关联.在这种情况下,组织的数据首先被加载到Hadoop平台,然后业务分析和数据挖掘工具应用于它驻留在商用计算机的Hadoop集群节点上的数据.

Hadoop也做了同样的事情.我们有用于存储的HDFS和用于计算的MapReduce.我对Hadoop和Data湖有点困惑.两者之间有什么区别.如果它们是相同的,为什么这个术语出现.或者如何定义数据湖.

hadoop data-warehouse data-lake

Kis*_*ore

lucky-day

15
推荐指数

2
解决办法

1万
查看次数

LakeFS、Hudi、Delta Lake合并以及合并冲突

我正在阅读有关 LakeFS 的文档，现在还不清楚什么是 LakeFS 的合并甚至合并冲突。

假设我使用 Apache Hudi 对单个表提供 ACID 支持。我想引入多表 ACID 支持，为此我想将 LakeFS 与 Hudi 一起使用。

如果我理解正确的话，lakeFS 是一个与数据无关的解决方案，对数据本身一无所知。LakeFS 仅建立边界（版本控制）并以某种方式调节对数据的并发访问。

所以合理的问题是——如果 LakeFS 与数据无关，它如何支持合并操作？合并本身对 LakeFS 意味着什么？那里有可能发生合并冲突吗？

data-lake delta-lake apache-hudi lakefs data-lakehouse

ale*_*oid

lucky-day

13
推荐指数

1
解决办法

509
查看次数

数据湖和大数据是一样的吗？

我试图了解所有数据湖和大数据之间是否存在真正的区别，如果你检查这两个概念都像一个大存储库，它会保存信息直到有必要，那么，我们什么时候可以说我们正在使用大数据还是数据湖？

提前致谢

bigdata data-lake

use*_*209

lucky-day

8
推荐指数

1
解决办法

3257
查看次数

数据库、数据集市、数据仓库、数据湖

寻找高层差异/比较

数据库
数据集市（自上而下的方法）
数据仓库
数据湖
数据湖屋

当具体情况不详时，请使用相对比较。

database comparison data-warehouse datamart data-lake

Ash*_*lix

2023 07-14

7
推荐指数

1
解决办法

1618
查看次数

本地三角洲湖

是否可以在本地实施 Delta Lake？如果是，需要安装哪些软件/工具？

我正在尝试在本地实现 Delta Lake 来分析一些日志文件和数据库表。我现在的机器装的是ubuntu，apache Spark。不确定还需要什么其他工具。

是否还有其他工具建议来实施本地数据湖概念？

data-lake delta-lake

Ajo*_*joy

lucky-day

7
推荐指数

1
解决办法

2967
查看次数

AWS Glue Data Catalog as Metastore用于Databricks等外部服务

比方说,datalake在AWS上.使用S3作为存储,使用Glue作为数据目录.因此,我们可以使用Glue作为Metastore轻松使用athena,redshift或EMR来查询S3上的数据.

我的问题是,是否可以将Glue数据目录公开为AWS上托管的Databricks等外部服务的Metastore？

amazon-s3 data-lake databricks aws-glue hive-metastore

Oba*_*aid

lucky-day

6
推荐指数

1
解决办法

900
查看次数

DynamoDB 适合作为 S3 元数据索引吗？

我想存储和查询大量原始事件数据。我想要使用的架构是“数据湖”架构，其中 S3 保存实际的事件数据，DynamoDB 用于对其进行索引并提供元数据。这是一个在很多地方都在谈论和推荐的架构：

但是，我很难理解如何使用 DynamoDB 来查询 S3 中的事件数据。在上面的 AWS 博客链接中，他们使用了存储多个不同服务器生成的客户事件的示例：

S3路径格式：[4-digit hash]/[server id]/[year]-[month]-[day]-[hour]-[minute]/[customer id]-[epoch timestamp].data

例如：a5b2/i-31cc02/2015-07-05-00-25/87423-1436055953839.data

在 DynamoDB 中记录此事件的架构如下所示：

Customer ID (Partition Key), Timestamp-Server (Sort Key), S3-Key, Size
87423, 1436055953839-i-31cc02, a5b2/i-31cc02/2015-07-05-00-25/87423-1436055953839.data, 1234

Run Code Online (Sandbox Code Playgroud)

我想执行一个查询，例如：“获取过去 24 小时内所有服务器生成的所有客户事件”，但据我了解，不使用分区键就不可能有效地查询 DynamoDB。我无法为此类查询指定分区键。

鉴于此要求，我是否应该使用 DynamoDB 以外的数据库来记录我的事件在 S3 中的位置？或者我只需要使用不同类型的 DynamoDB 架构？

amazon-s3 amazon-dynamodb data-lake

Ale*_*ing

2016 11-10

6
推荐指数

1
解决办法

8210
查看次数