Yuv*_*uva 4 amazon-web-services aws-glue aws-lake-formation
我一直在为客户设置数据湖,其中我们将数据从本地或任何其他来源加载到 S3(数据湖)中。我们将根据这些原始数据创建一个 AWS Glue 目录来创建架构。
下一步是使用 EMR 或 AWS Glue 进行一些数据清理,将转换后的数据加载到 RDS / REDSHIFT / S3 作为最终目标。
可以使用数据管道、Glue 作业或 AWS Lambda 事件触发器来计划作业,具体取决于所使用的用例/服务。
将使用 IAM 服务为分析师和其他用户提供所需的数据/S3 存储桶访问权限,以进行 Quicksight 可视化或使用 Athena、Drill 等进行数据查询,或将数据用于 Sagemaker 中的 ML 应用程序。
我的问题是 AWS Lake Formation 与上述传统数据湖有何不同?
我可以定义AWS Lake Formation提供的所有上述服务(例如S3、Glue Catalog、Glue中的ETL代码生成器、作业调度程序等)都可以在单个窗口中使用吗?为用户/数据(记录/列级别)提供一些更高级的安全性,可以在 Lake Formation 控制台中进行配置。
还有什么能让湖的形成从传统的基于云的数据湖中脱颖而出吗?
谢谢
您的理解是正确的,Lake Formation 本质上只是 Glue Catalog 上的一个权限模型,允许与其他 AWS 数据湖工具紧密集成:Athena、S3、Glue、EMR 等。以及一些附加功能,如蓝图(用于同步)数据从 RDBMS 到 S3)、作业(用于 ETL)和爬虫(用于数据发现)。
Lake Formation 允许通过 Lake Formation UI 和 API 集中管理环境中的“用户”IAM 角色,从而更轻松地进行权限管理。Lake Formation 允许您加入单个“服务”IAM 角色来拥有存储桶访问权限,然后向用户 IAM 授予数据库/表/列级别的访问权限,而不必在每次角色需要新访问权限时更新单独的 IAM/存储桶策略需要它的角色。
用户角色本质上承担服务角色来执行其操作(可能不会完全假设,因为这是一个 AWS 黑匣子)。因此,Lake Formation 使您免于通过一堆 IAM/存储桶策略来管理所有用户 IAM 角色的权限的麻烦。
如果您的设置需要,它还可以轻松集成跨帐户资源共享数据。
AWS Lake Formation 主要是一个权限控制层,它与 AWS Glue 结合起来,基本上提供目录和权限控制。Lake Formation 提供了管理 IAM 权限的暂缓措施,而是使用简单的 DB(如授权)提供自己的基于授权的细粒度权限控制。
Lake Formation 在与 EMR 等数据服务集成方面仍然存在一些挑战。(它需要额外的 IAM 策略)但总体而言,使用 Lake Formation 与 S3,Glue ETL 提供了构建数据湖所需的一切。
Lake Formation 仍然可以从改进的 UI 和数据发现中受益。
您可以使用 Lake Formation 来实施传统风格的数据湖或使其更加模块化并提供跨多个 AWS 账户的支持。
| 归档时间: |
|
| 查看次数: |
2276 次 |
| 最近记录: |