DBMS级别的管道和过滤器:拆分MERGE输出流

Question

DBMS级别的管道和过滤器:拆分MERGE输出流

tne*_*tne 26 sql t-sql sql-server sql-merge azure-sql-database

脚本

我们有一个非常标准的数据导入过程,我们在其中加载一个staging表,然后将MERGE其加载到target表中.

新要求(绿色)涉及将导入数据的子集捕获到单独的queue表中,以进行完全不相关的处理.

"挑战"

(1)子集由选择的记录组成:target仅新添加到表中的记录.

(2)子集是一些插入列的投影,但也是至少一个仅存在于源(staging 表)中的列.

(3)该MERGE语句已OUTPUT..INTO严格使用该子句记录所$action采用的MERGE,以便我们可以为统计目的提供PIVOT结果和COUNT插入,更新和删除的数量.我们并不喜欢像这样缓冲整个数据集的操作,而是希望动态聚合总和.不用说,我们不想在此OUTPUT表中添加更多数据.

(4)我们不想做MERGE 任何原因,甚至部分地执行第二次的匹配工作.该 target表是非常大的,我们不能索引一切,操作通常是相当昂贵的(几分钟,而不是秒).

(5)我们不考虑将任何输出从MERGE客户端传输到客户端,以便客户端可以queue通过立即将其发送回来将其路由到客户端.数据必须保留在服务器上.

(6)我们希望避免在staging和之间的临时存储中缓冲整个数据集queue.

最好的方法是什么？

故障

(a)仅将插入的记录排入队列的要求使我们无法queue直接将表格中的表格置于OUTPUT..INTO其中MERGE,因为它不允许任何WHERE条款.我们可以使用一些 CASE技巧来标记不需要的记录,以便在queue不进行处理的情况下进行后续删除,但这看起来很疯狂.

(b)因为用于表的某些列queue没有出现在 target表中,我们不能简单地在目标表上添加插入触发器来加载queue."数据流分裂"必须尽快发生.

(c)由于我们已经在中使用了一个OUTPUT..INTO子句MERGE,我们不能添加第二个OUTPUT子句并将其嵌套MERGE到一个 INSERT..SELECT加载队列中.这是一种耻辱,因为对于那些效果很好的东西来说,感觉就像一个完全随意的限制; 该SELECT过滤器只与记录 $action我们想要的(INSERT)和INSERTš他们在queue一条语句.因此,DBMS理论上可以避免缓冲整个数据集并简单地将其流入queue.(注意:我们没有追求,它可能实际上没有以这种方式优化计划.)

情况

我们觉得我们已经筋疲力尽了我们的选择,但我们决定转向这个hivemind来确定.我们所能想到的只有:

(S1)创建一个表,VIEW该target表还包含queue仅用于的数据的可空列,并将 SELECT语句定义为NULL.然后,设置INSTEAD OF 触发器,填充target表和queue 适当的.最后,连接MERGE到目标视图.这是有效的,但我们不是构造的粉丝 - 它看起来确实很棘手.

(S2)放弃,使用另一个缓冲整个数据集在临时表中MERGE..OUTPUT.之后MERGE,立即将数据(再次!)从临时表复制到queue.

Answer 1

Vla*_*nov 17

我的理解是,主要障碍是OUTPUTSQL Server中子句的限制.它允许将结果集返回给调用者的一个OUTPUT INTO table和/或一个OUTPUT.

您希望以MERGE两种不同的方式保存语句的结果:

受MERGE收集统计信息影响的所有行
只插入行 queue

简单的变种

我会用你的S2解决方案.至少从一开始.这是很容易理解和维护,应该是相当有效的,因为资源最密集的操作(MERGE到Target本身将只执行一次).下面有第二个变体,比较它们在实际数据上的表现会很有趣.

所以:

用OUTPUT INTO @TempTable在MERGE
无论是INSERT全部由行@TempTable入Stats插入前或聚合.如果您只需要聚合统计信息,那么汇总此批处理的结果并将其合并到final中Stats而不是复制所有行是有意义的.
INSERTQueue只进入"插入"行@TempTable.

我将从@ i-one的答案中获取样本数据.

架构

-- I'll return to commented lines later

CREATE TABLE [dbo].[TestTarget](
    -- [ID] [int] IDENTITY(1,1) NOT NULL,
    [foo] [varchar](10) NULL,
    [bar] [varchar](10) NULL
);

CREATE TABLE [dbo].[TestStaging](
    [foo] [varchar](10) NULL,
    [bar] [varchar](10) NULL,
    [baz] [varchar](10) NULL
);

CREATE TABLE [dbo].[TestStats](
    [MergeAction] [nvarchar](10) NOT NULL
);

CREATE TABLE [dbo].[TestQueue](
    -- [TargetID] [int] NOT NULL,
    [foo] [varchar](10) NULL,
    [baz] [varchar](10) NULL
);

归档时间：	10 年，1 月前
查看次数：	497 次
最近记录：	10 年，1 月前

DBMS级别的管道和过滤器:拆分MERGE输出流

脚本

"挑战"

故障

情况

简单的变种

第二个变种