相关疑难解决方法(0)

Spark 2.0 Dataset vs DataFrame

从spark 2.0.1开始我有一些问题.我阅读了很多文档,但到目前为止找不到足够的答案:

有什么区别
- df.select("foo")
- df.select($"foo")
我能正确理解吗
- myDataSet.map(foo.someVal)是类型安全的,不会转换为RDD但保留在DataSet表示/没有额外的开销(2.0.0的性能明智)
所有其他命令,例如select,..只是语法糖.它们不是类型安全的,可以使用地图代替.如果df.select("foo")没有地图声明,我怎么能输入？
- 为什么我应该使用UDF/UADF而不是地图(假设地图保留在数据集表示中)？

scala apache-spark apache-spark-sql apache-spark-dataset apache-spark-2.0

Geo*_*ler

2018 01-05

23
推荐指数

1
解决办法

4687
查看次数

Spark Build自定义列功能,用户定义的功能

我正在使用Scala并希望构建自己的DataFrame函数.例如,我想将列视为数组,遍历每个元素并进行计算.

首先,我正在尝试实现自己的getMax方法.因此,列x将具有值[3,8,2,5,9],并且该方法的预期输出将为9.

这是Scala中的样子

def getMax(inputArray: Array[Int]): Int = {
   var maxValue = inputArray(0)
   for (i <- 1 until inputArray.length if inputArray(i) > maxValue) {
     maxValue = inputArray(i)
   }
   maxValue
}

Run Code Online (Sandbox Code Playgroud)

这是我到目前为止,并得到这个错误

"value length is not a member of org.apache.spark.sql.column",

Run Code Online (Sandbox Code Playgroud)

而且我不知道如何遍历该列.

def getMax(col: Column): Column = {
var maxValue = col(0)
for (i <- 1 until col.length if col(i) > maxValue){
    maxValue = col(i)
}
maxValue

Run Code Online (Sandbox Code Playgroud)

}

一旦我能够实现自己的方法,我将创建一个列函数

val value_max:org.apache.spark.sql.Column=getMax(df.col(“value”)).as(“value_max”)

Run Code Online (Sandbox Code Playgroud)

然后我希望能够在SQL语句中使用它,例如

val sample = sqlContext.sql("SELECT value_max(x) FROM table")

Run Code Online (Sandbox Code Playgroud)

给定输入栏[3,8,2,5,9],预期输出为9

我正在关注另一个线程Spark …

scala apache-spark apache-spark-sql

oth*_*r15

2017 05-23

18
推荐指数

1
解决办法

3万
查看次数

TypeError：列不可迭代-如何遍历ArrayType（）？

考虑以下DataFrame：

+------+-----------------------+
|type  |names                  |
+------+-----------------------+
|person|[john, sam, jane]      |
|pet   |[whiskers, rover, fido]|
+------+-----------------------+

Run Code Online (Sandbox Code Playgroud)

可以使用以下代码创建：

import pyspark.sql.functions as f
data = [
    ('person', ['john', 'sam', 'jane']),
    ('pet', ['whiskers', 'rover', 'fido'])
]

df = sqlCtx.createDataFrame(data, ["type", "names"])
df.show(truncate=False)

Run Code Online (Sandbox Code Playgroud)

有没有一种方法可以通过对每个元素应用函数而不使用？来直接修改ArrayType()列？"names"udf

例如，假设我想将该函数foo应用于"names"列。（我将使用其中的例子foo是str.upper只用于说明目的，但我的问题是关于可以应用到一个可迭代的元素任何有效的功能。）

foo = lambda x: x.upper()  # defining it as str.upper as an example
df.withColumn('X', [foo(x) for x in f.col("names")]).show()

Run Code Online (Sandbox Code Playgroud)

TypeError：列不可迭代

我可以使用udf：

foo_udf = f.udf(lambda row: [foo(x) …

Run Code Online (Sandbox Code Playgroud)

apache-spark pyspark spark-dataframe pyspark-sql

pau*_*ult

2018 03-30

9
推荐指数

1
解决办法

4438
查看次数

标签统计

apache-spark ×3

apache-spark-sql ×2

scala ×2

apache-spark-2.0 ×1

apache-spark-dataset ×1

pyspark ×1

pyspark-sql ×1

spark-dataframe ×1

Spark 2.0 Dataset vs DataFrame

Spark Build自定义列功能,用户定义的功能

TypeError：列不可迭代-如何遍历ArrayType（）？

标签 统计

标签统计