Cha*_*tar 9 amazon-s3 amazon-web-services avro aws-glue
我是AWS Glue的新手,并且很难完全理解AWS文档,但我正在努力解决以下用例:
我们有一个带有许多Avro文件的s3存储桶.我们决定使用Avro,因为它对数据模式的更改提供了广泛的支持,允许新字段毫无问题地应用于旧数据.
使用AWS Glue,我了解只要存在架构更改,爬虫就会创建一个新表.当我们的模式发生变化时,这会导致爬行器按照预期创建许多新表,但并不像我们希望的那样......
最终,我们希望爬虫检测到最新的模式,并将此模式应用于我们在s3存储桶中爬行的所有数据,仅输出一个表.我们(可能错误地)假设通过使用Avro,这不会是一个问题,因为爬虫可以将具有给定默认值或空值的新架构字段应用于旧数据(使用Avro的好处),并且只输出一个表然后我们可以使用AWS Athena进行查询.
AWS Glue中是否有一种方法可以为s3存储桶中的所有数据使用给定的模式,使我们能够利用模式演化的Avro优势,从而将所有数据输出到一个表中?
我没有专门使用过 Avro 文件,但 AWS Glue 允许您通过多种方式配置爬网程序。
如果您创建新的爬网程序,系统会在“配置爬网程序的输出”部分下提示您一些选项。
根据您的情况,我认为您需要勾选以下方框Update all new and existing partitions with metadata from the table.
这就是子菜单的样子。
| 归档时间: |
|
| 查看次数: |
861 次 |
| 最近记录: |