vde*_*dep 4 scala dataframe apache-spark apache-spark-sql
我有List[Double],如何将其转换为org.apache.spark.sql.Column.我试图将其作为列插入.withColumn()到现有的DataFrame.
它不能直接完成.Column不是数据结构,而是特定SQL表达式的表示.它不受特定数据的约束.您必须先转换数据.接近这一点的一种方式是parallelize与join通过索引:
import org.apache.spark.sql.Row
import org.apache.spark.sql.types.{StructField, DoubleType}
val df = Seq(("a", 2), ("b", 1), ("c", 0)).toDF("x", "y")
val aList = List(1.0, -1.0, 0.0)
val rows = df.rdd.zipWithIndex.map(_.swap)
.join(sc.parallelize(aList).zipWithIndex.map(_.swap))
.values
.map { case (row: Row, x: Double) => Row.fromSeq(row.toSeq :+ x) }
sqlContext.createDataFrame(rows, df.schema.add("z", DoubleType, false))
Run Code Online (Sandbox Code Playgroud)
另一种类似的方法是索引和使用UDF来处理其余的:
import scala.util.Try
val indexedDf = sqlContext.createDataFrame(
df.rdd.zipWithIndex.map {
case (row: Row, i: Long) => Row.fromSeq(row.toSeq :+ i)
},
df.schema.add("idx_", "long")
)
def addValue(vs: Vector[Double]) = udf((i: Long) => Try(vs(i.toInt)).toOption)
indexedDf.withColumn("z", addValue(aList.toVector)($"idx_"))
Run Code Online (Sandbox Code Playgroud)
不幸的是,两种解决方案都会遇到问题.首先通过驱动程序传递本地数据会在程序中引入严重的瓶颈.通常,数据应直接从执行程序访问.如果要迭代地执行此操作,另一个问题是增加RDD谱系.
虽然第二个问题可以通过检查点解决,但第一个问题使得这个想法一般无用.我强烈建议您先构建完整的结构,然后在Spark上读取它,或者以可以利用Spark架构的方式重建管道.例如,如果数据来自外部源,则使用map/ 直接为每个数据块执行读取操作mapPartitions.
| 归档时间: |
|
| 查看次数: |
4164 次 |
| 最近记录: |