将SQL Server表导出到多个零件文件

Jon*_*Jon 5 sql database sql-server hive bcp

我需要将一个相当大的SQL Server表~100GB导出到CSV文件.但不是输出是一个单独的csv文件,理想情况下应该是多个文件说10个文件,每个10GB.

我看到BCP有一个batch_size参数,但是这仍然会将所有数据写入一个文件?是否有其他免费的公用事业可以满足我的需求?文件大小可以以字节还是以行数指定的位置?

对于一些上下文,这是因为数据可以与Hive/Hadoop平台中的其他源组合,因此如果有更好的方式导出数据,我会打开建议.

Har*_* CO 7

我认为您可以使用SQL 2012的分页功能OFFSETFETCH与bcp结合使用:

SELECT *
FROM Table
ORDER BY ID --Primary Key
OFFSET 100000001 ROWS
FETCH NEXT 100000000 ROWS ONLY
Run Code Online (Sandbox Code Playgroud)


Joe*_*ris 6

遗憾的是,BCP的batch_size参数不控制输出.

我做过这种分裂的方式:

1 -简单但不可重复:创建一个命令文件(.cmd),在指定BCP的行范围内运行多个s.这可能需要IDENTITY(1,1)桌面上的基本主键.

bcp "SELECT * FROM MyTable WHERE Id BETWEEN 0 AND 10000000" queryout …  
bcp "SELECT * FROM MyTable WHERE Id BETWEEN 10000000 AND 20000000" queryout …   
Run Code Online (Sandbox Code Playgroud)

2 -简单且可重复,使用大量磁盘:BCP将整个表格输出到单个文件,并根据split需要创建尽可能多的新文件,每个文件中包含给定的字节数(注意:按行拆分将是一个更好的主意IMO ).使用'Cygwin'(不再维护GnuWin32)来安装split和任何其他所需的实用程序.

 bcp MyDb.MySchema.MyTable out C:\MyFile.csv -T -w  
 split -b 10737418240 C:\MyFile.csv C:\MySplitFile_  
Run Code Online (Sandbox Code Playgroud)

生成以下文件

 C:\MySplitFile_aaa
 C:\MySplitFile_aab
 …
Run Code Online (Sandbox Code Playgroud)

3 -复杂但可重复,需要可能不安全的T-SQL:使用该xp_cmdshell函数在遍历表的存储过程中调用BCP.

 DECLARE @loop AS INT;   
 --Use WHILE to loop as needed--   
 DECLARE @sql AS VARCHAR(MAX);   
 --Add code to generate dynamic SQL here--   
 DECLARE @bcp AS VARCHAR(MAX);   
 SELECT @bcp='BCP "'+@sql+'" queryout C:\MyFolder\MyFile_'+@loop+'.csv';   
Run Code Online (Sandbox Code Playgroud)

最后注意:如果您在数据中使用任何NVARCHAR字段,则需要使用该-w标志并注意输出将为UTF-16LE.我强烈建议iconv在尝试使用Hadoop中的任何内容之前,使用(再次来自'Cygwin')将其转换为UTF-8 .


Bel*_*Bob 3

我会先导出文件,然后将其外部分割。假设您在 Windows 计算机上运行,​​有几种“免费软件”工具可以提供帮助。有关更多信息,请参阅超级用户的其他答案