传统数据湖与 AWS Lake Formation

Question

传统数据湖与 AWS Lake Formation

Yuv*_*uva 4 amazon-web-services aws-glue aws-lake-formation

我一直在为客户设置数据湖，其中我们将数据从本地或任何其他来源加载到 S3（数据湖）中。我们将根据这些原始数据创建一个 AWS Glue 目录来创建架构。

下一步是使用 EMR 或 AWS Glue 进行一些数据清理，将转换后的数据加载到 RDS / REDSHIFT / S3 作为最终目标。

可以使用数据管道、Glue 作业或 AWS Lambda 事件触发器来计划作业，具体取决于所使用的用例/服务。

将使用 IAM 服务为分析师和其他用户提供所需的数据/S3 存储桶访问权限，以进行 Quicksight 可视化或使用 Athena、Drill 等进行数据查询，或将数据用于 Sagemaker 中的 ML 应用程序。

我的问题是 AWS Lake Formation 与上述传统数据湖有何不同？

我可以定义AWS Lake Formation提供的所有上述服务（例如S3、Glue Catalog、Glue中的ETL代码生成器、作业调度程序等）都可以在单个窗口中使用吗？为用户/数据（记录/列级别）提供一些更高级的安全性，可以在 Lake Formation 控制台中进行配置。

还有什么能让湖的形成从传统的基于云的数据湖中脱颖而出吗？

谢谢

Answer 1

Gol*_*ott 5

您的理解是正确的，Lake Formation 本质上只是 Glue Catalog 上的一个权限模型，允许与其他 AWS 数据湖工具紧密集成：Athena、S3、Glue、EMR 等。以及一些附加功能，如蓝图（用于同步）数据从 RDBMS 到 S3）、作业（用于 ETL）和爬虫（用于数据发现）。

Lake Formation 允许通过 Lake Formation UI 和 API 集中管理环境中的“用户”IAM 角色，从而更轻松地进行权限管理。Lake Formation 允许您加入单个“服务”IAM 角色来拥有存储桶访问权限，然后向用户 IAM 授予数据库/表/列级别的访问权限，而不必在每次角色需要新访问权限时更新单独的 IAM/存储桶策略需要它的角色。

用户角色本质上承担服务角色来执行其操作（可能不会完全假设，因为这是一个 AWS 黑匣子）。因此，Lake Formation 使您免于通过一堆 IAM/存储桶策略来管理所有用户 IAM 角色的权限的麻烦。

如果您的设置需要，它还可以轻松集成跨帐户资源共享数据。

Answer 2

Ami*_*mar 5

AWS Lake Formation 主要是一个权限控制层，它与 AWS Glue 结合起来，基本上提供目录和权限控制。Lake Formation 提供了管理 IAM 权限的暂缓措施，而是使用简单的 DB（如授权）提供自己的基于授权的细粒度权限控制。

Lake Formation 在与 EMR 等数据服务集成方面仍然存在一些挑战。（它需要额外的 IAM 策略）但总体而言，使用 Lake Formation 与 S3，Glue ETL 提供了构建数据湖所需的一切。

Lake Formation 仍然可以从改进的 UI 和数据发现中受益。

您可以使用 Lake Formation 来实施传统风格的数据湖或使其更加模块化并提供跨多个 AWS 账户的支持。

归档时间：	6 年，5 月前
查看次数：	2276 次
最近记录：	4 年，9 月前