我有一个将每日记录加载到 S3 的管道。然后我利用 AWS Glue Crawler 创建分区以促进 AWS Athena 查询。但是,如果与其他数据相比,分区数据很大。
S3 文件夹/文件显示如下:
s3.ObjectSummary(bucket_name='bucket', key='database/table/2019/00/00/2019-00-00.parquet.gzip') 7.8 MB
s3.ObjectSummary(bucket_name='bucket', key='database/table/2019/01/11/2019-01-11.parquet.gzip') 29.8 KB
s3.ObjectSummary(bucket_name='bucket', key='database/table/2019/01/12/2019-01-12.parquet.gzip') 28.5 KB
s3.ObjectSummary(bucket_name='bucket', key='database/table/2019/01/13/2019-01-13.parquet.gzip') 29.0 KB
s3.ObjectSummary(bucket_name='bucket', key='database/table/2019/01/14/2019-01-14.parquet.gzip') 43.3 KB
s3.ObjectSummary(bucket_name='bucket', key='database/table/2019/01/15/2019-01-15.parquet.gzip') 139.9 KB
Run Code Online (Sandbox Code Playgroud)
每行末尾显示文件大小。请注意,2019-00-00.parquet.gzip包含 2019-01-11 之前的所有记录,因此其大小较大。我读过这篇文章,它说“如果您的数据严重偏向一个分区值,并且大多数查询使用该值,那么开销可能会抹去最初的好处。”
所以,我想知道我是否应该分成2019-00-00.parquet.gzip具有不同分区的较小的镶木地板文件。例如,
key='database/table/2019/00/00/2019-00-01.parquet.gzip',
key='database/table/2019/00/00/2019-00-02.parquet.gzip',
key='database/table/2019/00/00/2019-00-03.parquet.gzip', ......
Run Code Online (Sandbox Code Playgroud)
但是,我认为这种分区不是很有用,因为它没有反映旧记录的存储时间。我愿意接受所有解决方法。谢谢你。