如何将压缩文件加载到BigQuery中

Fel*_*ffa 5 google-bigquery

我想将http://dumps.wikimedia.org/other/pagecounts-raw/上的维基百科综合浏览量上传到BigQuery,最快的方法是什么?

Fel*_*ffa 5

这是一个经典的演示,我展示了如何轻松地将数据加载到BigQuery中.

要从维基百科获取一小时的综合浏览量,只需输入文件:

wget http://dumps.wikimedia.org/other/pagecounts-raw/2014/2014-06/pagecounts-20140602-180000.gz
Run Code Online (Sandbox Code Playgroud)

然后将其加载到BigQuery中(应该花费更少或大约5分钟):

bq load -F" " --quote "" fh-bigquery:wikipedia.pagecounts_20140602-18 pagecounts-20140602-180000.gz language,title,requests:integer,content_size:integer
Run Code Online (Sandbox Code Playgroud)

请注意,此文件的压缩大小约为100MB(gz),您无需解压缩此大小的文件以将其加载到BigQuery中.它包含大约800万行每小时的综合浏览量.

  • -F" ":此文件由空格分隔,而不是逗号
  • --quote "":此文件不使用字符串的引号
  • language,title,requests:integer,content_size:integer:列.默认情况下,除非我们将其明确地转换为其他类型(在本例中为整数),否则所有内容都将作为字符串加载.

(需要先前安装bq工具)

我公开了此数据集,您可以在https://bigquery.cloud.google.com/table/fh-bigquery:wikipedia.pagecounts_20140602_18找到此表.

我还将所有8月份的综合浏览量保留在https://bigquery.cloud.google.com/table/fh-bigquery:wikipedia.wikipedia_views_201308(如果您有53亿次网页浏览量)SELECT SUM(requests) FROM [fh-bigquery:wikipedia.wikipedia_views_201308].

  • 对于压缩,只有.gz(gzip)文件才有效 - 因此多个压缩文件不是一个选项(.gz也不能处理) (2认同)