我正在尝试找出Amazon Redshift中不同类型的sortkey,并且在这里遇到了一个奇怪的警告,未作解释:
重要提示:请勿在具有单调递增属性的列(例如标识列,日期或时间戳)上使用交错排序键。
但是,在他们自己的示例中,Amazon在日期列上使用交织键具有良好的性能。
因此,我的问题是-此警告的解释是什么,我应该认真对待吗?更准确地说-在时间戳列上使用交错键是否有问题?
我认为稍后他们在描述有关清理/重新索引的问题时可能会对此进行解释:
最初加载表时,Amazon Redshift 会分析排序键列中值的分布,并使用该信息优化排序键列的交错。随着表的增长,排序键列中值的分布可能会发生变化或倾斜,尤其是日期或时间戳列。如果偏差过大,可能会影响性能。
因此,如果这是唯一的原因,那么这只意味着您将增加对索引的维护。
来自https://docs.aws.amazon.com/redshift/latest/dg/t_Sorting_data.html
当您向已经包含数据的排序表添加行时,未排序区域会增长,这对性能有显着影响。当表使用交错排序时,效果更大,尤其是当排序列包含单调增加的数据时,例如日期或时间戳列。
原始引用中的关键点不是该数据是日期或时间戳,而是它“单调地”增加,在这种情况下,这可能意味着顺序增加,例如事件时间戳或 Id 编号。
| 归档时间: |
|
| 查看次数: |
319 次 |
| 最近记录: |