Amazon Redshift架构设计

Question

我们正在考虑使用Amazon Redshift来实现我们的数据仓库,我想了解如何在Redshift中正确设计Schema的一些建议.

我对Redshift完全不熟悉.在过去,当我使用"传统"数据仓库时,我习惯于创建诸如"Source","Stage","Final"等模式,以根据数据所处的阶段对所有数据库对象进行分组.

默认情况下,Redshift中的数据库具有单个模式,该模式名为PUBLIC.那么,我向那些使用过Redshift的人提出的问题,我上面概述的方法是否适用于此？如果没有,我会喜欢一些建议.

谢谢.

Answer 1

根据我使用Redshift的经验,我可以放心地断言以下几点:

多个模式:您应该创建多个模式并相应地创建表.当你进行缩放时,你可以更容易地指出桌子的确切位置.让我们说,你有3个模式,命名production,aggregates和rough.现在,您知道该表production将包含不应更改的表(主要是OLTP数据) - 例如user, order, transactions表.表aggregates将在原始表上构建聚合数据 - 例如number of orders placed per user per day per category.最后,rough将包含任何不具有业务逻辑但是某些临时工作所需的表 - 让我们说检查电影的类型以获得10万用户的列表,这些用户在excel文件中与您共享.只需在rough架构中创建一个表,执行操作并删除表.现在你非常清楚地知道你在哪里找到这些表是基于它们是原始的,聚合的还是简单的临时表.
公共架构:忘记它存在.在那里创建任何没有模式名称的表.很多混乱 - 没有必要存储任何重要数据.
跨架构连接:这里没有停止.您可以根据需要从尽可能多的模式中加入任意数量的表.实际上,您希望以后创建维度表并加入PK,而不是将所有信息保存在单个表中.

花一些时间来设计模式和底层表结构.扩展后,您可以更轻松地在访问控制方面对事物进行更好的分类.如果我错过了一些明显的观点,请告诉我.