scala - 激发 Dataframe 的结果集

Question

scala - 激发 Dataframe 的结果集

too*_*lik 3 scala resultset apache-spark apache-spark-sql

我正在查询 mysql 表

val url = "jdbc:mysql://XXX-XX-XXX-XX-XX.compute-1.amazonaws.com:3306/pg_partner"
val driver = "com.mysql.jdbc.Driver"
val username = "XXX"
val password = "XXX"
var connection:Connection = DriverManager.getConnection(url, username, password)
val statement = connection.createStatement()
val patnerName = statement.executeQuery("SELECT id,name FROM partner")

Run Code Online (Sandbox Code Playgroud)

我确实得到了结果，patnerName但我需要转换为数据框。

我可以通过以下代码打印数据：

while (patnerName.next) {
  val id = patnerName.getString("id")
  val name = patnerName.getString("name")
  println("id = %s, name = %s".format(id,name))
}

Run Code Online (Sandbox Code Playgroud)

现在我如何转换patnerName为 DataFrame？

Answer 1

kfk*_*ili 5

所以你必须分几个步骤来完成：

定义您的列并准备架构

    val columns = Seq("id", "name")
    val schema = StructType(List(
      StructField("id", StringType, nullable = true),
      StructField("name", StringType, nullable = true)
    ))

Run Code Online (Sandbox Code Playgroud)

定义如何在每次迭代时将 ResultSet 中的每条记录转换为 Row

    def parseResultSet(rs: ResultSet): Row = {
      val resultSetRecord = columns.map(c => rs.getString(c))
      Row(resultSetRecord:_*)
    }

Run Code Online (Sandbox Code Playgroud)

定义一个函数将 ResultSet 转换为 Iterator[Row]。它将使用您在上一步中定义的函数（当您在下一步中调用它时）。

    def resultSetToIter(rs: ResultSet)(f: ResultSet => Row): Iterator[Row] =
      new Iterator[Row] {
        def hasNext: Boolean = rs.next()
        def next(): Row = f(rs)
      }

Run Code Online (Sandbox Code Playgroud)

定义一个函数，该函数从 Iterator[Row].toSeq 创建 RDD，该函数使用您在上一步中定义的函数。使用 schema 从 RDD 创建 DataFrame

    def parallelizeResultSet(rs: ResultSet, spark: SparkSession): DataFrame = {
      val rdd = spark.sparkContext.parallelize(resultSetToIter(rs)(parseResultSet).toSeq)
      spark.createDataFrame(rdd, schema) // use the schema you defined in step 1
    }

Run Code Online (Sandbox Code Playgroud)

最后调用你的函数

    val df: DataFrame = parallelizeResultSet(patner, spark)

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，11 月前
查看次数：	6758 次
最近记录：	5 年，10 月前