标签: data-warehouse

CREATE TABLE Customer
(
    CustomerID int identity (1,1) NOT NULL PRIMARY KEY CLUSTERED, 
    PostalCode varchar(50) NOT NULL,
    SysStartTime datetime2 GENERATED ALWAYS AS ROW START NOT NULL, 
    SysEndTime datetime2 GENERATED ALWAYS AS ROW END NOT NULL,   
    PERIOD FOR SYSTEM_TIME (SysStartTime, SysEndTime) 
)
WITH (SYSTEM_VERSIONING = ON);

CREATE TABLE Sale
(
    SaleId int identity(1,1) NOT NULL PRIMARY KEY CLUSTERED,
    SaleDateTime …

Run Code Online (Sandbox Code Playgroud)

data-warehouse sql-server slowly-changing-dimension temporal-tables sql-server-2016

Jus*_*ant

2015 08-26

17
推荐指数

1
解决办法

1214
查看次数

星型模式和数据立方体之间的区别？

我参与了一个新项目，我必须从现有的关系数据库系统创建数据立方体。

我明白，现有的系统设计不当，我不知道从哪里开始。

我的问题是：

星型模式和数据立方体有什么区别？
我必须从哪里开始？从星型模式还是直接数据立方体？
数据立方体是从星型模式生成的吗？

我对关系数据建模的经验很少，这个问题可能看起来太基础了，我试图从很少的资源中弄清楚，仍然不清楚。请给出您的意见和建议？

如果我错过了与此问题相关的非常重要的内容，请也分享您对此的看法。

data-warehouse database-design

Rat*_*r B

lucky-day

17
推荐指数

2
解决办法

1万
查看次数

处理数据集市/仓库中的时区

我们开始设计数据集市/仓库的构建块，我们需要能够支持所有时区（我们的客户来自世界各地）。从在线（和书籍）阅读讨论来看，一个常见的解决方案似乎是在事实表中具有单独的日期和时间维度以及时间戳。

但是，我很难回答的问题是，考虑到我的动态时区要求，日期和时间维度实际上对我有什么好处？时间维度更有意义，但我很难处理日期维度。日期维度的一般设计方法通常包括日期名称、星期几、月份名称等属性。我遇到的所有问题是 UTC 时间 2013 年 12 月 31 日星期二晚上 11:00 是星期三, 2014 年 1 月 1 日，在 UTC+2 之后的所有时区。

因此，如果我必须对每个查询（和报告）进行所有这些时区转换，那么拥有和存储这些我可能永远不会使用（似乎）的属性有什么意义？有些人建议为每个时区设置事实行，但这对我来说似乎很荒谬。我们需要能够每月存储数百万条记录。

其他人建议有一个时区桥接表，虽然有一定的意义，但它似乎也需要额外的复杂性和额外的连接来完成我的客户端应用程序和报告应该能够轻松地从日期中找出的东西（报告将主要基于网络那里有无数的库可以帮助转换、显示和格式化日期）。

我唯一能想到的是按日期和小时分组的简便性和可能的性能，但是按日期部分分组的做法有多糟糕（我们正在使用 MS SQL，但我们将查询数百万行），或者我们应该考虑只是非常简单的日期和时间维度，大多数情况下不超过小时、日、月和年数字，因为大多数文字（例如星期一）在时区发挥作用时没有多大意义？

data-warehouse sql-server-2012 timezone datetime

Ves*_*kov

lucky-day

14
推荐指数

1
解决办法

7428
查看次数

ETL：从 200 个表中提取 - SSIS 数据流或自定义 T-SQL？

根据我的分析，我们数据仓库的完整维度模型需要从 200 多个源表中提取。其中一些表将作为增量加载的一部分提取，而其他表将作为完整加载。

需要注意的是，我们有大约 225 个具有相同架构的源数据库。

据我所知，在 SSIS 中构建一个带有 OLE DB 源和 OLE DB 目标的简单数据流需要在设计时确定列和数据类型。这意味着我最终会得到 200 多个数据流，仅用于提取。

从可维护性的角度来看，这对我来说是一个大问题。如果我需要对提取代码进行某种彻底的更改，我将不得不修改 200 个不同的数据流。

另一种选择是，我编写了一个小脚本，用于读取我想从一组元数据表中提取的源数据库、表名和列。代码在多个循环中运行，并使用动态 SQL 通过链接服务器和 OPENQUERY 从源表中提取。

根据我的测试，这仍然不如使用带有 OLEDB 源和目标的 SSIS 数据流快。所以我想知道我有什么样的选择。到目前为止的想法包括：

使用EZAPI以编程方式生成具有简单数据流的 SSIS 包。要提取的表和列将来自前面提到的相同元数据表。
购买第 3 方软件（动态数据流组件）

解决这个问题的最佳方法是什么？当谈到 .NET 编程时，我是一个初学者，所以仅仅学习基础知识所需的时间也是一个问题。

sql-server-2005 data-warehouse sql-server etl ssis

8kb*_*8kb

2021 09-03

13
推荐指数

1
解决办法

1万
查看次数

星型模式数据仓库中动态字段的 EAV 替代方案

我需要在大数据仓库中支持动态字段和值来存储 API 请求日志，我的用户案例是我需要存储所有 API 请求查询字符串并能够在未来对它们执行查询（所以它不仅仅是存储，所以我不能为他们使用 blob）

例如 http://example.com/?action=test&foo=abc&bar=def...

我需要存储所有field => value映射，即(action => test), (foo => abc), (bar => def)，由于该字段是如此动态，我找到的唯一解决方案是使用 Entity-Attribute-Value，但是，人们一直说这是一个非常糟糕的设计。

那么，考虑一下我上面的用例，什么是 EAV 的合适替代品？

我当前使用 KAV 的模式

表requests
(id, timestamp, uri)
例如(1, 149382220, '/')
表params
(request_id, key, value)
例如(1, 'action', 'test'), (1, 'foo', 'abc'), (1, 'bar', 'def')

有什么建议？

更新：我们在 AWS RedShift 上运行仓库

data-warehouse database-design eav star-schema redshift

How*_*ard

2014 05-16

13
推荐指数

2
解决办法

9284
查看次数