Glue、Athena 和 Spark 支持的数据类型之间的差异

ram*_*tan 6 apache-spark amazon-athena aws-glue aws-glue-data-catalog

我有一个基于 AWS S3 构建的数据湖。我正在使用 Glue 目录来存储数据湖表的元数据。出于各种目的,将使用 Athena 和 Spark 查询这些表。

在定义表列时,我注意到 Glue、Spark 和 Athena 支持的数据类型并不相同。以下链接显示了 Glue、Athena 和 Spark 支持的数据类型

胶水:https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-common.html

雅典娜:https://docs.aws.amazon.com/athena/latest/ug/data-types.html

火花: https: //spark.apache.org/docs/latest/sql-ref-datatypes.html

牢记性能,在创建数据湖表时应该使用哪些数据类型,