wrs*_*der 1 amazon-emr apache-spark aws-glue
我在 EMR 上有 Spark 作业,并且 EMR 配置为使用 Hive 和 Spark 元数据的 Glue 目录。
我创建 Hive 外部表,它们出现在 Glue 目录中,我的 Spark 作业可以在 Spark SQL 中引用它们,例如spark.sql("select * from hive_table ...")
现在,当我尝试在 Glue 作业中运行相同的代码时,它失败并出现“找不到表”错误。看起来 Glue 作业没有像 Spark SQL 在 EMR 中运行那样使用 Spark SQL 的 Glue 目录。
我可以通过使用 Glue API 并将数据帧注册为临时视图来解决这个问题:
create_dynamic_frame_from_catalog(...).toDF().createOrReplaceTempView(...)
但有没有办法自动执行此操作?
这是一个期待已久的功能请求(将 Glue 数据目录与 Glue ETL 作业结合使用),最近已发布。当你创建一个新的工作时,你会发现以下选项
Use Glue data catalog as the Hive metastore
您还可以通过编辑作业并添加--enable-glue-datacatalog
不提供任何值的作业参数来为现有作业启用它
归档时间: |
|
查看次数: |
4562 次 |
最近记录: |