Cro*_*rog 5 amazon-s3 protocol-buffers amazon-web-services aws-glue
首先。我对此有点陌生,所以如果我的条款不正确,我深表歉意。
我们正在做什么
我们在 S3 中已有二进制文件格式的文件(例如 Google Protocol Buffers),我们希望运行 ETL 作业来创建转换数据的数据湖,这些数据将使用 Amazon Redshift 或 Amazon Athena 进行访问。将来我们可能会通过 Kinesis 进行流传输。
我们面临的问题
我们正在考虑使用 AWSglue,但其支持的格式列表有限(CSV、Json、Parquet、Orc、Avro、Grok),并且在文档https://docs.aws 中未提供“自定义/其他”。 amazon.com/glue/latest/dg/aws-glue-programming-etl-format.html
想法
关键考虑因素
非常感谢您可能拥有的任何帮助或经验,特别是示例或现有用例,因为我不认为我们正在尝试做的事情与众不同......或者是吗?
| 归档时间: |
|
| 查看次数: |
1650 次 |
| 最近记录: |