我有一个带有约7000万JSON(〜15TB)的S3存储桶,以及一个可以通过时间戳和JSON中定义的其他键查询的雅典娜表。
可以保证JSON中的时间戳或多或少等于JSON的S3createdDate(或者至少等于我的查询目的)
我可以通过将createddate添加为“ partition”之类的方式来以某种方式提高查询性能(和成本)吗?我不理解,似乎只能使用前缀/文件夹吗?
编辑:目前,我通过使用S3广告资源CSV通过createdDate进行预过滤,然后下载所有JSON并进行其余过滤,来进行模拟,但我想尽可能在athena内完成此操作