C#,EF和LINQ:将大型(7Mb)记录插入SQL Server的速度很慢

Mik*_*ill 15 c# linq sql-server entity-framework latency

这个问题有一个很长的版本,还有一个简短的版本.

简短版本:

为什么LINQ和EF在将单个大型(7 Mb)记录插入远程SQL Server数据库时这么慢?

这里是长版本 (包含一些有关变通方法的信息,可能对其他读者有用):

所有以下示例代码运行正常,但由于我的用户位于欧洲,而我们的数据中心位于美国,因此速度很慢.但是,如果我在美国的Virtual PC上运行相同的代码,它会立即运行.(不,遗憾的是,我的公司希望将所有数据保留在内部,因此我无法使用Azure,Amazon Cloud Services等)

我的企业应用程序中有相当一部分涉及从Excel读取/写入数据到SQL Server,而且我们通常希望在SQL Server表中保存Excel文件的原始副本.

这非常简单,只需从本地文件中读取原始数据,然后将其保存到记录中即可.

private int SaveFileToSQLServer(string filename)
{
    //  Read in an Excel file, and store it in a SQL Server [External_File] record.
    //
    //  Returns the ID of the [External_File] record which was added.
    //

    DateTime lastModifed = System.IO.File.GetLastWriteTime(filename);
    byte[] fileData = File.ReadAllBytes(filename);

    //  Create a new SQL Server database record, containing our file's raw data 
    //  (Note: the table has an IDENTITY Primary-Key, so will generate a ExtFile_ID for us.)
    External_File newFile = new External_File()
    {
        ExtFile_Filename = System.IO.Path.GetFileName(filename),
        ExtFile_Data = fileData,
        ExtFile_Last_Modified = lastModifed,
        Update_By = "mike",
        Update_Time = DateTime.UtcNow
    };
    dc.External_Files.InsertOnSubmit(newFile);
    dc.SubmitChanges(); 

    return newFile.ExtFile_ID;
}
Run Code Online (Sandbox Code Playgroud)

是的,没有惊喜,它工作正常.

但是,我注意到,对于大型Excel文件(7-8Mb),插入一个(大!)记录的代码需要40-50秒才能运行.我把它放在后台线程中,一切正常,但是,当然,如果用户退出我的应用程序,这个过程将被终止,这将导致问题.

作为测试,我尝试用代码替换此函数来执行此操作:

  • 将文件复制到SQL Server计算机上的共享目录中
  • 调用存储过程将原始数据(blob)读入同一个表中

使用此方法,整个过程只需3-4秒.

如果您感兴趣,这里是我用来上传文件(必须存储在SQL Server机器本身的文件夹中)到数据库记录的存储过程:

CREATE PROCEDURE [dbo].[UploadFileToDatabase]
    @LocalFilename nvarchar(400)
AS
BEGIN
    --  By far, the quickest way to do this is to copy the file onto the SQL Server machine, then call this stored
    --  procedure to read the raw data into a [External_File] record, and link it to the Pricing Account record.
    --
    --      EXEC [dbo].[UploadPricingToolFile] 'D:\ImportData\SomeExcelFile.xlsm'
    -- 
    --  Returns: -1 if something went wrong  (eg file didn't exist) or the ID of our new [External_File] record
    --
    --  Note that the INSERT will go wrong, if the user doesn't have "bulkadmin" rights.
    --      "You do not have permission to use the bulk load statement."
    --  EXEC master..sp_addsrvrolemember @loginame = N'GPP_SRV', @rolename = N'bulkadmin'
    --
    SET NOCOUNT ON;

    DECLARE 
        @filename nvarchar(300),        --  eg "SomeFilename.xlsx"  (without the path)
        @SQL nvarchar(2000),
        @New_ExtFile_ID int

    --  Extract (just) the filename from our Path+Filename parameter
    SET @filename = RIGHT(@LocalFilename,charindex('\',reverse(@LocalFilename))-1)

    SET @SQL = 'INSERT INTO [External_File]  ([ExtFile_Filename], [ExtFile_Data]) '
    SET @SQL = @SQL + 'SELECT ''' + @Filename + ''', * 
    SET @SQL = @SQL + ' FROM OPENROWSET(BULK ''' + @LocalFilename +''', SINGLE_BLOB) rs'

    PRINT convert(nvarchar, GetDate(), 108) + ' Running: ' + @SQL
    BEGIN TRY
        EXEC (@SQL)
        SELECT @New_ExtFile_ID = @@IDENTITY
    END TRY
    BEGIN CATCH
        PRINT convert(nvarchar, GetDate(), 108) + ' An exception occurred.'
        SELECT -1
        RETURN
    END CATCH

    PRINT convert(nvarchar, GetDate(), 108) + ' Finished.'

    --  Return the ID of our new [External_File] record
    SELECT @New_ExtFile_ID
END
Run Code Online (Sandbox Code Playgroud)

这段代码的关键是它构建了一个像这样的SQL命令:

INSERT INTO [External_File]  ([ExtFile_Filename], [ExtFile_Data])
SELECT 'SomeFilename.xlsm', * FROM OPENROWSET(BULK N'D:\ImportData\SomeExcelFile.xlsm', SINGLE_BLOB) rs
Run Code Online (Sandbox Code Playgroud)

..并且,由于要上传的数据库和文件都在同一台机器上,因此几乎立即运行.

正如我所说,整体而言,将文件复制到SQL Server计算机上的文件夹需要3-4秒,并运行此存储过程,相比之下,使用带有LINQ或EF的C#代码执行相同操作需要40-50秒.

将blob数据从SQL Server导出到外部文件中

当然,在相反的方向也是如此.

首先,我编写了一些C#/ LINQ代码来加载一个(7Mb!)数据库记录并将其二进制数据写入原始文件.这需要大约30-40秒才能运行.

但是,如果我首先将SQL Server数据导出到文件(保存在SQL Server计算机上).

EXEC master..xp_cmdshell 'BCP "select ef.ExtFile_Data FROM [External_File] ef where ExtFile_ID = 585" queryout "D:\ImportData\SomeExcelFile.xslx" -T -N'
Run Code Online (Sandbox Code Playgroud)

...然后将文件从SQL Server文件夹复制到用户的文件夹,然后再次,它在几秒钟内运行.

这是我的问题:为什么LINQ和EF在将单个大型记录插入数据库时​​如此糟糕?

我假设延迟(我们之间,欧洲和我们在美国的数据中心之间的距离)是延迟的主要原因,但是沼泽标准文件复制可以如此快得多,这很奇怪.

我错过了什么吗?

显然,我已经找到了解决这些问题的方法,但它们涉及到我们的SQL Server机器和SQL Server机器上的共享文件夹添加了一些额外的权限,而我们的DBA真的不喜欢授予像" xp_cmdshell" 这样的东西的权利......

几个月后......

本周我又遇到了同样的问题,并尝试了Kevin H的建议,即使用Bulk-Insert将大型(6Mb)记录插入SQL Server.

使用批量插入,插入6Mb记录大约需要90秒,即使我们的数据中心距离为6000英里.

因此,故事的寓意:当插入非常大的数据库记录时,避免使用常规SubmitChanges()命令,并坚持使用批量插入.

Kev*_*ker 5

您可以尝试使用分析器来查看实体框架对插入执行的操作.例如,如果它从表中选择数据,则可能需要很长时间才能通过网络返回数据,您可能不会在本地注意到这一点.

我发现从c#向sql server加载大量数据(记录计数和记录大小)的最佳方法是使用SqlBulkCopy类.即使您只插入1条记录,您仍然可以从此更改中受益.

要使用批量复制,只需创建一个与表结构相匹配的数据表.然后像这样调用代码.

using (SqlConnection destinationConnection = new    SqlConnection(connectionString))
using (SqlBulkCopy bulkCopy = new SqlBulkCopy(destinationConnection))
{
    bulkCopy.DestinationTableName = "External_File";
    bulkCopy.WriteToServer(dataTable);
}
Run Code Online (Sandbox Code Playgroud)