Raj*_*Raj 4 data-warehouse amazon-web-services amazon-redshift
我们正在考虑使用Amazon Redshift来实现我们的数据仓库,我想了解如何在Redshift中正确设计Schema的一些建议.
我对Redshift完全不熟悉.在过去,当我使用"传统"数据仓库时,我习惯于创建诸如"Source","Stage","Final"等模式,以根据数据所处的阶段对所有数据库对象进行分组.
默认情况下,Redshift中的数据库具有单个模式,该模式名为PUBLIC.那么,我向那些使用过Redshift的人提出的问题,我上面概述的方法是否适用于此?如果没有,我会喜欢一些建议.
谢谢.
根据我使用Redshift的经验,我可以放心地断言以下几点:
多个模式:您应该创建多个模式并相应地创建表.当你进行缩放时,你可以更容易地指出桌子的确切位置.让我们说,你有3个模式,命名production,aggregates和rough.现在,您知道该表production将包含不应更改的表(主要是OLTP数据) - 例如user, order, transactions表.表aggregates将在原始表上构建聚合数据 - 例如number of orders placed per user per day per category.最后,rough将包含任何不具有业务逻辑但是某些临时工作所需的表 - 让我们说检查电影的类型以获得10万用户的列表,这些用户在excel文件中与您共享.只需在rough架构中创建一个表,执行操作并删除表.现在你非常清楚地知道你在哪里找到这些表是基于它们是原始的,聚合的还是简单的临时表.
公共架构:忘记它存在.在那里创建任何没有模式名称的表.很多混乱 - 没有必要存储任何重要数据.
花一些时间来设计模式和底层表结构.扩展后,您可以更轻松地在访问控制方面对事物进行更好的分类.如果我错过了一些明显的观点,请告诉我.
| 归档时间: |
|
| 查看次数: |
3188 次 |
| 最近记录: |