小编dev*_*ife的帖子

Spark UDF与varargs

如文档中所示,它是列出最多22个所有参数的唯一选项吗?

https://spark.apache.org/docs/1.5.0/api/scala/index.html#org.apache.spark.sql.UDFRegistration

有人想出如何做类似的事情吗?

sc.udf.register("func", (s: String*) => s......
Run Code Online (Sandbox Code Playgroud)

(编写跳过空值的自定义concat函数,当时只有2个参数)

谢谢

scala apache-spark udf

18
推荐指数
1
解决办法
1万
查看次数

Spark Scala过滤DataFrame,其中值不在另一个DataFrame中

我有两个DataFrames:ab.这是他们的样子:

a
-------
v1 string
v2 string

roughly hundreds of millions rows


b
-------
v2 string

roughly tens of millions rows
Run Code Online (Sandbox Code Playgroud)

我想保留DataFrame av2不存在的行b("v2").

我知道我可以使用左连接和过滤器,其中右侧为null或SparkSQL具有"不在"构造.我打赌有更好的方法.

scala apache-spark

7
推荐指数
1
解决办法
4175
查看次数

scala数据帧到RDD [array [String]]

如何转换具有多列的数据帧我可以获得RDD [org.apache.spark.sql.Row],但我需要一些我可以用于org.apache.spark.mllib.fpm.FPGrowth,ei RDD [Array] [String]]如何转换?

df.head
org.apache.spark.sql.Row = [blabla,128323,23843,11.23,blabla,null,null,..]

df.printSchema    
 |-- source: string (nullable = true)
 |-- b1: string (nullable = true)
 |-- b2: string (nullable = true)
 |-- b3: long (nullable = true)
 |-- amount: decimal(30,2) (nullable = true)
and so on
Run Code Online (Sandbox Code Playgroud)

谢谢

scala apache-spark

-1
推荐指数
1
解决办法
2531
查看次数

标签 统计

apache-spark ×3

scala ×3

udf ×1