如何使用 AWS Glue 从 S3 导入 JSON 数据?

use*_*094 5 etl amazon-s3 amazon-web-services aws-glue

我在 AWS S3 中有一大堆以 JSON 格式存储的数据。它看起来像这样:

s3://my-bucket/store-1/20190101/sales.json
s3://my-bucket/store-1/20190102/sales.json
s3://my-bucket/store-1/20190103/sales.json
s3://my-bucket/store-1/20190104/sales.json
...
s3://my-bucket/store-2/20190101/sales.json
s3://my-bucket/store-2/20190102/sales.json
s3://my-bucket/store-2/20190103/sales.json
s3://my-bucket/store-2/20190104/sales.json
...
Run Code Online (Sandbox Code Playgroud)

都是相同的架构。我想将所有 JSON 数据放入一个数据库表中。我找不到解释如何设置的好教程。

理想情况下,我还能够对某些列执行小型“标准化”转换。

我认为胶水是正确的选择,但我对其他选择持开放态度!

KDi*_*lla 1

是的,Glue 是一个很棒的工具!

使用爬虫在glue数据目录中创建一个表(请记住在创建爬虫时在S3数据的分组行为下进行设置)在此处Create a single schema for each S3 path阅读更多信息

然后你可以用它relationalize来展平你的 json 结构,在这里阅读更多相关信息