njk*_*oes 9 etl dimensional-modeling redshift
我一直在研究 Amazon 的 Redshift 数据库作为我们数据仓库未来可能的替代品。我的经验一直是使用维度建模和 Ralph Kimball 的方法,所以看到 Redshift 不支持自动递增列的串行数据类型等功能有点奇怪。
但是,AWS 大数据博客最近有一篇关于如何为星型架构优化 Redshift 的博客文章:https : //blogs.aws.amazon.com/bigdata/post/Tx1WZP38ERPGK5K/Optimizing-for-Star-Schemas -and-Interleaved-Sorting-on-Amazon-Redshift
我的问题是在 Redshift 中加载星型模式的最佳实践是什么?我在 Redshift 的任何文档中都找不到答案。
我倾向于将我的文件从 S3 导入到临时表中,然后在插入到目标表之前使用 SQL 进行诸如查找和生成代理键之类的转换。
这是其他人目前正在做的事情吗?是否有值得花钱的 ETL 工具使这更容易?
小智 9
使用 Kimball 而不是使用 Redshift,您肯定走在正确的轨道上。
这有很多模式,我在不同的用例中都使用过它们
请注意,如果您有一个包含重复值而不是事实和维度的宽表,Redshift 有时会更好地工作。这样做的原因是柱状方法让 Redshift 将不同的值压缩到一个非常有效的水平。我没有一个公式来说明何时使用多个维度与平坦的宽桌,唯一的方法就是尝试看看!
一些链接
我认为从 S3 加载是一种常见的模式。
我们需要强制执行唯一性约束,因此我们选择写入 Postgres,然后每 10 分钟将新数据复制到 Redshift。
我们使用https://github.com/uswitch/blueshift加载到 Redshift。
归档时间: |
|
查看次数: |
13622 次 |
最近记录: |