从 EMR 迁移到 AWS Glue 后在 Spark SQL 中找不到表

Question

我在 EMR 上有 Spark 作业，并且 EMR 配置为使用 Hive 和 Spark 元数据的 Glue 目录。

我创建 Hive 外部表，它们出现在 Glue 目录中，我的 Spark 作业可以在 Spark SQL 中引用它们，例如spark.sql("select * from hive_table ...")

现在，当我尝试在 Glue 作业中运行相同的代码时，它失败并出现“找不到表”错误。看起来 Glue 作业没有像 Spark SQL 在 EMR 中运行那样使用 Spark SQL 的 Glue 目录。

我可以通过使用 Glue API 并将数据帧注册为临时视图来解决这个问题：

create_dynamic_frame_from_catalog(...).toDF().createOrReplaceTempView(...)

但有没有办法自动执行此操作？

Answer 1

这是一个期待已久的功能请求（将 Glue 数据目录与 Glue ETL 作业结合使用），最近已发布。当你创建一个新的工作时，你会发现以下选项

Use Glue data catalog as the Hive metastore

您还可以通过编辑作业并添加--enable-glue-datacatalog不提供任何值的作业参数来为现有作业启用它