小编dev*_*ife的帖子

Spark UDF与varargs

如文档中所示,它是列出最多22个所有参数的唯一选项吗？

https://spark.apache.org/docs/1.5.0/api/scala/index.html#org.apache.spark.sql.UDFRegistration

有人想出如何做类似的事情吗？

sc.udf.register("func", (s: String*) => s......

Run Code Online (Sandbox Code Playgroud)

(编写跳过空值的自定义concat函数,当时只有2个参数)

谢谢

scala apache-spark udf

dev*_*ife

2019 02-12

18
推荐指数

1
解决办法

1万
查看次数

Spark Scala过滤DataFrame,其中值不在另一个DataFrame中

我有两个DataFrames:a和b.这是他们的样子:

a
-------
v1 string
v2 string

roughly hundreds of millions rows


b
-------
v2 string

roughly tens of millions rows

Run Code Online (Sandbox Code Playgroud)

我想保留DataFrame a中v2不存在的行b("v2").

我知道我可以使用左连接和过滤器,其中右侧为null或SparkSQL具有"不在"构造.我打赌有更好的方法.

scala apache-spark

dev*_*ife

2016 02-15

7
推荐指数

1
解决办法

4175
查看次数

scala数据帧到RDD [array [String]]

如何转换具有多列的数据帧我可以获得RDD [org.apache.spark.sql.Row],但我需要一些我可以用于org.apache.spark.mllib.fpm.FPGrowth,ei RDD [Array] [String]]如何转换？

df.head
org.apache.spark.sql.Row = [blabla,128323,23843,11.23,blabla,null,null,..]

df.printSchema    
 |-- source: string (nullable = true)
 |-- b1: string (nullable = true)
 |-- b2: string (nullable = true)
 |-- b3: long (nullable = true)
 |-- amount: decimal(30,2) (nullable = true)
and so on

Run Code Online (Sandbox Code Playgroud)

谢谢

scala apache-spark

dev*_*ife

2015 12-17

-1
推荐指数

1
解决办法

2531
查看次数