小编Or *_*cov的帖子

使用 AWS Glue 数据目录在 Kubernetes（非 EMR）上运行 Spark

我正在 EKS 上运行 Spark 作业，这些作业是从 Jupyter 笔记本提交的。

我们将所有表都放在 S3 存储桶中，它们的元数据位于 Glue 数据目录中。

我想使用 Glue 数据目录作为这些 Spark 作业的 Hive 元存储。我发现当 Spark 在 EMR 中运行时可以这样做：https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hive-metastore-glue.html

但是 Spark 可以在 EKS 上运行吗？

我已经看到 aws 发布的代码： https: //github.com/awslabs/aws-glue-data-catalog-client-for-apache-hive-metastore 但我不明白是否需要修补 Hive jar为了我想做的事。另外，我需要 hive-site.xml 文件来将 Spark 连接到元存储，如何从 Glue 数据目录获取此文件？

amazon-web-services apache-spark aws-glue aws-glue-data-catalog

Or *_*cov

lucky-day

5
推荐指数

1
解决办法

1128
查看次数

标签统计

amazon-web-services ×1

apache-spark ×1

aws-glue ×1

aws-glue-data-catalog ×1

使用 AWS Glue 数据目录在 Kubernetes（非 EMR）上运行 Spark

标签 统计

小编Or _cov的帖子

标签统计