如文档中所示,它是列出最多22个所有参数的唯一选项吗?
https://spark.apache.org/docs/1.5.0/api/scala/index.html#org.apache.spark.sql.UDFRegistration
有人想出如何做类似的事情吗?
sc.udf.register("func", (s: String*) => s......
Run Code Online (Sandbox Code Playgroud)
(编写跳过空值的自定义concat函数,当时只有2个参数)
谢谢
我有两个DataFrames:a和b.这是他们的样子:
a
-------
v1 string
v2 string
roughly hundreds of millions rows
b
-------
v2 string
roughly tens of millions rows
Run Code Online (Sandbox Code Playgroud)
我想保留DataFrame a中v2不存在的行b("v2").
我知道我可以使用左连接和过滤器,其中右侧为null或SparkSQL具有"不在"构造.我打赌有更好的方法.
如何转换具有多列的数据帧我可以获得RDD [org.apache.spark.sql.Row],但我需要一些我可以用于org.apache.spark.mllib.fpm.FPGrowth,ei RDD [Array] [String]]如何转换?
df.head
org.apache.spark.sql.Row = [blabla,128323,23843,11.23,blabla,null,null,..]
df.printSchema
|-- source: string (nullable = true)
|-- b1: string (nullable = true)
|-- b2: string (nullable = true)
|-- b3: long (nullable = true)
|-- amount: decimal(30,2) (nullable = true)
and so on
Run Code Online (Sandbox Code Playgroud)
谢谢