小编Gol*_*ott的帖子

传统数据湖与 AWS Lake Formation

我一直在为客户设置数据湖,其中我们将数据从本地或任何其他来源加载到 S3(数据湖)中。我们将根据这些原始数据创建一个 AWS Glue 目录来创建架构。

下一步是使用 EMR 或 AWS Glue 进行一些数据清理,将转换后的数据加载到 RDS / REDSHIFT / S3 作为最终目标。

可以使用数据管道、Glue 作业或 AWS Lambda 事件触发器来计划作业,具体取决于所使用的用例/服务。

将使用 IAM 服务为分析师和其他用户提供所需的数据/S3 存储桶访问权限,以进行 Quicksight 可视化或使用 Athena、Drill 等进行数据查询,或将数据用于 Sagemaker 中的 ML 应用程序。

我的问题是 AWS Lake Formation 与上述传统数据湖有何不同?

我可以定义AWS Lake Formation提供的所有上述服务(例如S3、Glue Catalog、Glue中的ETL代码生成器、作业调度程序等)都可以在单个窗口中使用吗?为用户/数据(记录/列级别)提供一些更高级的安全性,可以在 Lake Formation 控制台中进行配置。

还有什么能让湖的形成从传统的基于云的数据湖中脱颖而出吗?

谢谢

amazon-web-services aws-glue aws-lake-formation

4
推荐指数
2
解决办法
2276
查看次数

AWS 粘合删除所有分区

我在 AWS 胶水中定义了几个表。

在过去的几周里,我遇到了必须手动修复的表定义的不同问题 - 我想更改列名或类型,或者更改序列化库。但是,如果我已经创建了分区,表的修复不会改变它们,所以我必须手动删除所有分区然后修复。

有没有一种简单的方法可以做到这一点?从 AWS Glue 表中删除所有分区?我正在使用aws batch-delete-partitionCLI 命令,但它的语法很棘手,并且一次性删除的分区数量有一些限制,整个过程很麻烦......

amazon-web-services amazon-athena aws-glue aws-glue-data-catalog

2
推荐指数
2
解决办法
3545
查看次数