use*_*094 5 etl amazon-s3 amazon-web-services aws-glue
我在 AWS S3 中有一大堆以 JSON 格式存储的数据。它看起来像这样:
s3://my-bucket/store-1/20190101/sales.json
s3://my-bucket/store-1/20190102/sales.json
s3://my-bucket/store-1/20190103/sales.json
s3://my-bucket/store-1/20190104/sales.json
...
s3://my-bucket/store-2/20190101/sales.json
s3://my-bucket/store-2/20190102/sales.json
s3://my-bucket/store-2/20190103/sales.json
s3://my-bucket/store-2/20190104/sales.json
...
Run Code Online (Sandbox Code Playgroud)
都是相同的架构。我想将所有 JSON 数据放入一个数据库表中。我找不到解释如何设置的好教程。
理想情况下,我还能够对某些列执行小型“标准化”转换。
我认为胶水是正确的选择,但我对其他选择持开放态度!
是的,Glue 是一个很棒的工具!
使用爬虫在glue数据目录中创建一个表(请记住在创建爬虫时在S3数据的分组行为下进行设置)在此处Create a single schema for each S3 path阅读更多信息
然后你可以用它relationalize来展平你的 json 结构,在这里阅读更多相关信息
| 归档时间: |
|
| 查看次数: |
13675 次 |
| 最近记录: |