将大型 CSV 加载到 Google BigQuery 时出错

use*_*500 7 csv cloud google-bigquery

将大型 CSV 加载到 bigquery 时出错。我在网上阅读的任何地方都看到压缩文件的大小限制为 5gb,但 CSV 没有限制。

加载操作中的 BigQuery 错误:错误处理作业“bqjob_r3016bbfad3037f_0000015cea1a1eff_1”:输入的 CSV 文件不可拆分,并且至少有一个文件大于允许的最大大小。大小为:24686861596。最大允许大小为:4294967296。

Mos*_*sky 7

BigQuery 文档在此处列出了导入作业的各种限制:https : //cloud.google.com/bigquery/quota-policy#load_jobs 特别指出,压缩 CSV 文件的限制为 4 GB。

关于“不可拆分”CSV 文件的错误消息可能有两种情况:

  1. CSV 文件被压缩
  2. 在其中一个字段中存在引用字符不匹配,这使得该字段中的字符串看起来长,也使文件不可拆分(这就是您的情况可能发生的情况)。


Fel*_*ffa 5

尝试这个:

  • 关闭引用
  • 将分隔字符设置为不出现的字符。

bq help load

--quote: Quote character to use to enclose records. Default is ". To indicate no quote character at all, use an empty string.
-F,--field_delimiter: The character that indicates the boundary between columns in the input file. "\t" and "tab" are accepted names for tab.
Run Code Online (Sandbox Code Playgroud)

这会将每个 CSV 行导入到一个单列表中。内的BigQuery之后斯普利特(与REGEXP_EXTRACT()SPLIT()或JavaScript UDF)。