clo*_*nja 5 compression amazon-s3 snappy amazon-redshift parquet
我在HDFS中有数据集,它采用镶木地板格式,并且有snappy作为压缩编解码器.就我的研究而言,目前Redshift只接受带有gzip,lzo压缩编解码器的纯文本,json,avro格式.
或者,我正在将镶木地板格式转换为纯文本,并使用Pig脚本将snappy编解码器更改为gzip.
目前有没有办法直接从镶木地板文件加载数据到Redshift?
Joe*_*ris 12
不,目前无法将Parquet格式数据直接加载到Redshift中.
编辑:从2017年4月19日开始,您可以使用Redshift Spectrum直接查询S3上的Parquet数据.因此,您现在可以使用http://docs.aws.amazon.com/redshift/latest/dg/c-using-spectrum.html从Parquet"加载"INSERT INTO x SELECT * FROM parquet_data
编辑2:从2018年5月17日开始(对于版本1.0.2294或更高版本的集群),您可以直接将Parquet和ORC文件加载到Redshift中.https://docs.aws.amazon.com/redshift/latest/dg/copy-usage_notes-copy-from-columnar.html
| 归档时间: |
|
| 查看次数: |
10501 次 |
| 最近记录: |