SQL ROW_NUMBER()超过性能问题

Question

SQL ROW_NUMBER()超过性能问题

mch*_*_dk 2 sql t-sql sql-server query-optimization

我有这个SQL工作正常.

希望我的过滤器返回具有最高UserSessionSequenceID的最新唯一SessionGuids.

问题是性能很糟糕 - 尽管我有很好的索引.我怎样才能重写这个 - 省略ROW_NUMBER行？

SELECT TOP(@resultCount) * FROM 
(
    SELECT
        [UserSessionSequenceID]
        ,[SessionGuid]
        ,[IP]
        ,[Url]
        ,[UrlTitle]
        ,[SiteID]
        ,[BrowserWidth]
        ,[BrowserHeight]
        ,[Browser]
        ,[BrowserVersion]
        ,[Referer]
        ,[Timestamp]
        ,ROW_NUMBER() over (PARTITION BY [SessionGuid] 
                                    ORDER BY UserSessionSequenceID DESC) AS sort 
   FROM [tblSequence]
) AS t     
WHERE ([Timestamp] > DATEADD(mi, -@minutes, GETDATE())) 
  AND (SiteID = @siteID) 
  AND sort = 1
ORDER BY [UserSessionSequenceID] DESC

Run Code Online (Sandbox Code Playgroud)

非常感谢 :-)

Answer 1

Rem*_*anu 9

即使我有好的指数

没有冒犯,但让我们做出判断.在询问SQL Server性能问题时,始终发布表的确切模式,包括所有索引和基数.

例如,让我们考虑以下表结构:

create table tblSequence (
 [UserSessionSequenceID] int not null
        ,[SessionGuid] uniqueidentifier not null
        ,[SiteID] int not null
        ,[Timestamp] datetime not null
        , filler varchar(512));
go

create clustered index cdxSequence on tblSequence (SiteID, [Timestamp]);
go

Run Code Online (Sandbox Code Playgroud)

与您的相同,但与性能问题无关的所有字段都会聚合到通用填充程序中.让我们看看,对于大约50,000个会话,1M行的性能有多糟糕？让我们用随机数据填充表格,但我们将模拟"用户活动"的内容:

set nocount on;
declare @i int = 0, @sc int = 1;
declare @SessionGuid uniqueidentifier = newid()
    , @siteID int = 1
    , @Timestamp datetime = dateadd(day, rand()*1000, '20070101')
    , @UserSessionSequenceID int = 0;
begin tran;
while @i<1000000
begin
    insert into tblSequence (
        [UserSessionSequenceID]
        ,[SessionGuid]
        ,[SiteID]
        ,[Timestamp]
        , filler)
    values (
        @UserSessionSequenceID
        , @SessionGuid
        , @siteID
        , @timestamp
        , replicate('X', rand()*512));

    if rand()*100 < 5
    begin
        set @SessionGuid = newid();
        set @siteID = rand() * 10;
        set @Timestamp = dateadd(day, rand()*1000, '20070101');
        set @UserSessionSequenceID = 0;
        set @sc += 1;
    end
    else
    begin
        set @timestamp = dateadd(second, rand()*300, @timestamp);
        set @UserSessionSequenceID += 1;
    end

    set @i += 1;
    if (@i % 1000) = 0
    begin
        raiserror(N'Inserted %i rows, %i sessions', 0, 1, @i, @sc);
        commit;
        begin tran;
    end
end
commit;

Run Code Online (Sandbox Code Playgroud)

这需要大约1分钟才能填满.现在让我们查询你问的同一个查询:在过去的Y分钟内,网站X上任何用户会话的最后一个动作是什么？我将不得不使用@now的特定日期而不是GETDATE()因为emy dtaa是模拟的,而不是真实的,所以我使用随机填充的最大时间戳为SiteId 1:

set statistics time on;
set statistics io on;

declare @resultCount int = 30;
declare @minutes int = 60*24;
declare @siteID int = 1;
declare @now datetime = '2009-09-26 02:08:27.000';

SELECT TOP(@resultCount) * FROM  
( 
    SELECT 
        [UserSessionSequenceID] 
        ,[SessionGuid] 
        , SiteID
        , Filler
        ,[Timestamp] 
        ,ROW_NUMBER() over (PARTITION BY [SessionGuid]  
                                    ORDER BY UserSessionSequenceID DESC) AS sort  
   FROM [tblSequence] 
   where SiteID = @siteID
   and [Timestamp] > DATEADD(mi, -@minutes, @now)
) AS t      
WHERE sort = 1 
ORDER BY [UserSessionSequenceID] DESC ;

Run Code Online (Sandbox Code Playgroud)

这是相同的查询和你,但是限制滤波器被移动内部的ROW_NUMBER()部分子查询.结果重新出现在:

Table 'tblSequence'. Scan count 1, logical reads 12, physical reads 0.

 SQL Server Execution Times:
   CPU time = 0 ms,  elapsed time = 31 ms.

Run Code Online (Sandbox Code Playgroud)

温暖缓存上的响应时间为31毫秒,从表的近60k页读出12页.

更新

再次阅读原始查询后,我意识到我修改后的查询是不同的.你只需要新的会话.我仍然相信SiteID和Timestmap的过滤是获得必要性能的唯一方法,因此解决方案是使用NOT EXISTS条件验证候选发现:

SELECT TOP(@resultCount) * FROM  
( 
    SELECT 
        [UserSessionSequenceID] 
        ,[SessionGuid] 
        , SiteID
        , Filler
        ,[Timestamp] 
        ,ROW_NUMBER() over (
            PARTITION BY [SessionGuid]  
            ORDER BY UserSessionSequenceID DESC) 
         AS sort  
   FROM [tblSequence] 
   where SiteID = @siteID
   and [Timestamp] > DATEADD(mi, -@minutes, @now)
) AS new
WHERE sort = 1 
and not exists (
    select SessionGuid 
    from tblSequence
    where SiteID = @siteID
    and SessionGuid = new.SessionGuid
    and [TimeStamp] < DATEADD(mi, -@minutes, @now)
)
ORDER BY [UserSessionSequenceID] DESC

Run Code Online (Sandbox Code Playgroud)

这将在我的笔记本电脑上返回,在400毫秒的时间内从温暖缓存中返回超过400k会话的1M行:

Table 'Worktable'. Scan count 0, logical reads 0, physical reads 0
Table 'tblSequence'. Scan count 2, logical reads 709, physical reads 0

 SQL Server Execution Times:
   CPU time = 16 ms,  elapsed time = 40 ms.

Run Code Online (Sandbox Code Playgroud)

归档时间：	15 年，10 月前
查看次数：	9870 次
最近记录：	15 年，10 月前