从JDBC创建spark数据帧时如何指定sql方言？

Question

从JDBC创建spark数据帧时如何指定sql方言？

Smi*_*ith 3 jdbc apache-spark apache-spark-sql apache-spark-2.0 vitess

我在使用 Spark 通过自定义 JDBC 读取数据时遇到问题。我将如何覆盖通过 jdbc url 推断的 sql 方言？

有问题的数据库是 vitess ( https://github.com/youtube/vitess )，它运行一个 mysql 变体，所以我想指定一个 mysql 方言。jdbc url 以 jdbc:vitess/ 开头

否则 DataFrameReader 会推断默认方言使用 """ 作为引用标识符。因此，通过 spark.read.jdbc 的查询被发送为

从表中选择“id”、“col2”、“col3”、“etc”

它选择字符串表示而不是列值而不是

从表中选择 id、col2、col3 等

Answer 1

Ale*_*kov 6

也许为时已晚。但答案将是下一个：

创建您的自定义方言，就像我为 ClickHouse 数据库所做的一样（我的 jdbc 连接 url 看起来像这样 jdbc:clickhouse://localhost:8123）

 private object ClickHouseDialect extends JdbcDialect {
    //override here quoting logic as you wish
    override def quoteIdentifier(colName: String): String = colName

    override def canHandle(url: String): Boolean = url.startsWith("jdbc:clickhouse")
  }

Run Code Online (Sandbox Code Playgroud)

并在代码中的某处注册它，如下所示：

JdbcDialects.registerDialect(ClickHouseDialect)

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，12 月前
查看次数：	3644 次
最近记录：	6 年，9 月前