小编Mar*_*cin的帖子

Databricks 6.1 初始化 Metastore 连接时没有名为 global_temp 的数据库错误

在集群 6.1(包括 Apache Spark 2.4.4、Scala 2.11)(Azure)上初始化 hive Metastore 连接(第一次将数据帧保存为表)时,我可以看到数据库 global_temp 的运行状况检查失败并显示错误:

20/02/18 12:11:17 INFO HiveUtils: Initializing HiveMetastoreConnection version 0.13.0 using file:
...
20/02/18 12:11:21 INFO HiveMetaStore: 0: get_database: global_temp
20/02/18 12:11:21 INFO audit: ugi=root  ip=unknown-ip-addr  cmd=get_database: global_temp   
20/02/18 12:11:21 ERROR RetryingHMSHandler: NoSuchObjectException(message:There is no database named global_temp)
    at org.apache.hadoop.hive.metastore.ObjectStore.getMDatabase(ObjectStore.java:487)
    at org.apache.hadoop.hive.metastore.ObjectStore.getDatabase(ObjectStore.java:498)
...
    at org.apache.spark.sql.DataFrameWriter.saveAsTable(DataFrameWriter.scala:430)
...
    at py4j.GatewayConnection.run(GatewayConnection.java:251)
    at java.lang.Thread.run(Thread.java:748)
Run Code Online (Sandbox Code Playgroud)

这不会导致 python 脚本失败,但会污染日志。

global_temp 数据库不应该自动创建吗?可以关闭支票吗?还是错误被抑制?

azure databricks azure-databricks

6
推荐指数
0
解决办法
1063
查看次数

Azure Databricks 的静态 IP

为 Azure 中的 Databricks 工作区设置静态公共 IP(或 IP 范围)的正确方法是什么?最简单的工作解决方案是什么?

\n\n

我希望能够将 ftp 服务器(在 azure 外部运行)中的 Databricks IP 列入白名单,某些作业将访问该服务器。Databricks 已经在 VNET 中运行,所以我尝试了以下场景:

\n\n
    \n
  1. NAT 网关 - 当网关与公共子网集群关联时无法启动并出现错误:“网络配置失败”和更多详细信息“[Nat 网关] 无法部署在包含基本 SKU 公共 IP 地址或基本 SKU 负载均衡器的子网上。NIC”。
  2. \n
  3. 使用防火墙和路由表 - 如此处所述-这部分有效(我无法安装 python 包 - SSLError(SSLError("bad handshake: SysCallError(-1, \'Unexpected EOF\')")))。问题是,它相当昂贵 ~ 1\xe2\x82\xac 每小时。
  4. \n
  5. 通过 NVA 路由流量 - 如此处所述-我没有设法让它工作 - 对于我的简单部署来说,它似乎也有点太复杂了。
  6. \n
\n

azure databricks azure-databricks

6
推荐指数
1
解决办法
1万
查看次数

标签 统计

azure ×2

azure-databricks ×2

databricks ×2