我正在 EKS 上运行 Spark 作业,这些作业是从 Jupyter 笔记本提交的。
我们将所有表都放在 S3 存储桶中,它们的元数据位于 Glue 数据目录中。
我想使用 Glue 数据目录作为这些 Spark 作业的 Hive 元存储。我发现当 Spark 在 EMR 中运行时可以这样做:https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hive-metastore-glue.html
但是 Spark 可以在 EKS 上运行吗?
我已经看到 aws 发布的代码: https: //github.com/awslabs/aws-glue-data-catalog-client-for-apache-hive-metastore 但我不明白是否需要修补 Hive jar为了我想做的事。另外,我需要 hive-site.xml 文件来将 Spark 连接到元存储,如何从 Glue 数据目录获取此文件?
amazon-web-services apache-spark aws-glue aws-glue-data-catalog