批量更新4000万行的最佳方法

Bil*_*ill 7 t-sql sql-server

基本上我需要在一个有4000万行的表上运行它,一次更新每一行都会崩溃,所以我想批量查询,这样如果崩溃,它可以重新运行查询,它会跳过完成的批处理继续留下剩下的.

UPDATE [table]
SET [New_ID] = [Old_ID]
Run Code Online (Sandbox Code Playgroud)

最快的方法是什么?以下是创建表的方式:

CREATE TABLE [table](
    [INSTANCE_ID] [int] NOT NULL,
    [table_ID] [bigint] IDENTITY(1,1) NOT NULL,
    [old_ID] [bigint] NOT NULL,
    [new_ID] [bigint] NOT NULL,
    [owner_ID] [int] NOT NULL,
    [created_time] [datetime] NULL
) ON [PRIMARY]
Run Code Online (Sandbox Code Playgroud)

created_time,owner_ID上还有索引.

编辑:我的更新声明完全如图所示,我只需要将old_id中的每个条目复制到new_id中以获得4000万行.

M.A*_*Ali 13

Declare @Rowcount INT = 1;

WHILE (@Rowcount > 0)   
BEGIN
        UPDATE TOP (100000) [table]   --<-- define Batch Size in TOP Clause
           SET [New_ID] = [Old_ID]
        WHERE [New_ID] <> [Old_ID]

        SET @Rowcount = @@ROWCOUNT;

       CHECKPOINT;   --<-- to commit the changes with each batch
END
Run Code Online (Sandbox Code Playgroud)


btb*_*rry 5

M.Ali 的建议会奏效,但在处理 40M 记录时最终会降低性能。我建议使用更好的过滤器来查找每次传递中要更新的记录。这将假设您的身份列上有一个主键(或其他索引):

DECLARE @Rowcount INT = 1
    ,   @BatchSize INT = 100000
    ,   @StartingRecord BIGINT = 1;

WHILE (@Rowcount > 0)   
BEGIN
    UPDATE [table]
        SET [New_ID] = [Old_ID]
    WHERE [table_ID] BETWEEN @StartingRecord AND @StartingRecord + @BatchSize - 1;

    SET @Rowcount = @@ROWCOUNT;

    CHECKPOINT;

    SELECT @StartingRecord += @BatchSize
END
Run Code Online (Sandbox Code Playgroud)

这种方法将允许每次迭代和第一次一样快。如果您没有有效的索引,则需要先修复它。