用于高效 Athena 查询的 S3 分区（文件大小）

Question

用于高效 Athena 查询的 S3 分区（文件大小）

Wai*_*iat 2 amazon-s3 presto amazon-athena

我有一个将每日记录加载到 S3 的管道。然后我利用 AWS Glue Crawler 创建分区以促进 AWS Athena 查询。但是，如果与其他数据相比，分区数据很大。

S3 文件夹/文件显示如下：

s3.ObjectSummary(bucket_name='bucket', key='database/table/2019/00/00/2019-00-00.parquet.gzip')   7.8 MB

s3.ObjectSummary(bucket_name='bucket', key='database/table/2019/01/11/2019-01-11.parquet.gzip')  29.8 KB
s3.ObjectSummary(bucket_name='bucket', key='database/table/2019/01/12/2019-01-12.parquet.gzip')  28.5 KB
s3.ObjectSummary(bucket_name='bucket', key='database/table/2019/01/13/2019-01-13.parquet.gzip')  29.0 KB
s3.ObjectSummary(bucket_name='bucket', key='database/table/2019/01/14/2019-01-14.parquet.gzip')  43.3 KB
s3.ObjectSummary(bucket_name='bucket', key='database/table/2019/01/15/2019-01-15.parquet.gzip') 139.9 KB

Run Code Online (Sandbox Code Playgroud)

每行末尾显示文件大小。请注意，2019-00-00.parquet.gzip包含 2019-01-11 之前的所有记录，因此其大小较大。我读过这篇文章，它说“如果您的数据严重偏向一个分区值，并且大多数查询使用该值，那么开销可能会抹去最初的好处。”

所以，我想知道我是否应该分成2019-00-00.parquet.gzip具有不同分区的较小的镶木地板文件。例如，

key='database/table/2019/00/00/2019-00-01.parquet.gzip',
key='database/table/2019/00/00/2019-00-02.parquet.gzip',
key='database/table/2019/00/00/2019-00-03.parquet.gzip', ......

Run Code Online (Sandbox Code Playgroud)

但是，我认为这种分区不是很有用，因为它没有反映旧记录的存储时间。我愿意接受所有解决方法。谢谢你。

Answer 1

The*_*heo 6

如果数据的完整大小总共不到几 GB，则根本不需要对表进行分区。对小数据集进行分区对性能的影响远远大于其帮助。将所有文件保存在同一目录中，未分区表中的深层目录结构也会影响性能。

对于小数据集，只要文件不是太多，最好不要分区（尽量保持在一百以下）。如果您出于某种原因必须拥有大量小文件，您可能会从分区中受益，但在这种情况下对其进行基准测试。

当数据的大小很小时，例如在您的情况下，在 S3 上查找文件、打开和读取文件的开销将高于实际处理它们的开销。

如果您的数据增长到数百兆字节，您可以开始考虑分区，并瞄准分区大小在 100 兆字节到 1 千兆字节左右的分区方案。如果您的数据有时间成分（在您的情况下似乎有这种成分），则时间是最好的分区方式。首先考虑使用年份作为分区键，然后是月份，依此类推。当然，如何对数据进行分区取决于查询模式。

归档时间：	6 年，12 月前
查看次数：	2253 次
最近记录：	6 年，11 月前