“累积快照”事实表中的“度量类型维度”

Mat*_*ino 8 data-warehouse database-design

我有一个累积快照事实表,用于跟踪终端中容器进入和退出

集装箱可以通过3 种不同的方式进出,所以我想创建一个特定的维度表,列出这 3 种可能的方式(火车、船只或卡车)。

然后我读了这篇文章,它基本上说这种技术是错误的,但我不明白为什么。

第一篇:

有时,当事实表有一长列事实且在任何单个行中都稀疏填充时,很容易创建一个度量类型维度,将事实表行折叠为由度量类型维度标识的单个通用事实。我们一般不推荐这种方法。虽然它删除了所有空的事实列,但它将事实表的大小乘以每行中被占用的平均列数,这使得列内计算变得更加困难。当潜在事实的数量非常多(数百个)时,此技术是可以接受的,但适用于任何给定事实表行的数量并不多。

我知道如果为事务事实表实现了“度量类型维度”,它可能会产生像另一篇文章所说的那样的问题,但如果用于累积快照事实,我看不出任何缺点。

第二篇文章:( 实施“度量类型维度”的一些缺点)

  1. [...] 如果我们使用“度量类型维度”,我们将失去这种分析能力。如果一个度量与其他度量不兼容,我们就无法将它们相加。
  2. [...] 我们的 SQL 生成报告需要运行的传递次数越多,报告的速度就越慢。
  3. [...] 在 BI 工具上,如果您不放置度量类型过滤器,您就有可能让用户获得“垃圾信息”。从可用性的角度来看,这种设计是垃圾。

回应 Mark Storey-Smith 的回答

非常好的方法,我从来没有想过。

另一件事:将集装箱带入码头的车辆的每次进出都有一个唯一的 ID,它为我提供了其他信息,例如:车辆的预计到达时间、实际到达时间、如果是船只、码头、卡车、收费站和许多其他信息...

这是 3 个不同的事实表,它们必须以某种方式链接到容器事实表。

我以为航程的ID是a degenerate dimension,所以它会直接进入容器事实表。所以,我的疑问是:我应该在容器事实表中添加 6 个不同的字段(vessel_voyage_in_key、vessel_voyage_out_key、train_voyage_in_key、train_voyage_out_key、truck_voyage_in_key、truck_voyage_out_key)还是只添加 2 个动态链接到各种航程表的其他字段(voyage_in、voyage_out)?

我希望我的疑问很清楚,谢谢。

Mar*_*ith 3

我相信该指南指的是一个广泛的事实表,其中大多数度量值为空:

CREATE TABLE dbo.SparseFact
(
    Dim1Key     INT NOT NULL
    , Dim2Key   INT NOT NULL
    , Dim3Key   INT NOT NULL
    , Dim4Key   INT NOT NULL
    , Dim5Key   INT NOT NULL
    , Value1    INT NULL
    , Value2    INT NULL
    , Value3    INT NULL
    , Value4    INT NULL
    , Value5    INT NULL
    , Value6    INT NULL
    , Value7    INT NULL
    , Value8    INT NULL
    ..
    , Value101  INT NULL
    , Value102  INT NULL
    , Value103  INT NULL
);
Run Code Online (Sandbox Code Playgroud)

建议有些人会看到所有空值并决定这样做:

CREATE TABLE dbo.DontDoThisFact
(
    Dim1Key             INT NOT NULL
    , Dim2Key           INT NOT NULL
    , Dim3Key           INT NOT NULL
    , Dim4Key           INT NOT NULL
    , Dim5Key           INT NOT NULL
    , MeasureTypeKey    INT NOT NULL
    , Value             INT NOT NULL
);
Run Code Online (Sandbox Code Playgroud)

不好。

在您的场景中,我想我会看到类似的情况,这与您引用的文章中描述的场景非常不同。

CREATE TABLE dbo.InventoryFact
(
    ContainerKey        INT NOT NULL
    , TransportTypeKey  TINYINT NOT NULL
    , EntryDateTime     DATETIME NULL
    , ExitDateTime      DATETIME NULL
);

CREATE TABLE dbo.TransportType
(
    TransportTypeKey    TINYINT IDENTITY(1,1) NOT NULL
    , EntryTransport    CHAR(10) NOT NULL
    , ExitTransport     CHAR(10) NOT NULL
);

INSERT
    dbo.TransportType
SELECT
    EntryTransport
    , ExitTransport
FROM
    (
    SELECT EntryTransport = 'Train'
    UNION
    SELECT EntryTransport = 'Truck'
    UNION
    SELECT EntryTransport = 'Vessel'
    UNION
    SELECT EntryTransport = 'N/A'
    UNION
    SELECT EntryTransport = 'Unknown'
    ) en
CROSS JOIN
    (
    SELECT ExitTransport = 'Train'
    UNION
    SELECT ExitTransport = 'Truck'
    UNION
    SELECT ExitTransport = 'Vessel'
    UNION
    SELECT ExitTransport = 'N/A'
    UNION
    SELECT ExitTransport = 'Unknown'
    ) ex;
Run Code Online (Sandbox Code Playgroud)

对于附加问题...

我想添加ExpectedEntryDate,ExpectedExitDateContainer/InventoryFact. 不太确定,如果没有所有数据元素的可见性,我可能会将EntryVoyageIdExitVoyageId与任何其他退化数据项(卡车、火车等的标识符)一起作为一行放在单独的垃圾维度中。

我将为VesselVoyageTruckVoyageTrainVoyage以及 6 个 Voyage 键(入站/出站)添加 3 个新维度(这是 6 个新键,而不是 6 个附加行)。然后,您可以选择将Dock和放置Tollbooth在适当的航行维度中。如果将通用数据保留在这些维度 ( VesselFlag, TruckCapacity) 中,并将特定数据保留在垃圾维度 ( VesselName, VesselMMSI) 中,它们的大小不会爆炸。