小编Abi*_*rty的帖子


SELECT id, label, textual1 
FROM table  
WHERE 
           ARRAY_CONTAINS(type, 'productType1') 
      AND  ARRAY_CONTAINS(feature, 'feature1') 
      AND  ARRAY_CONTAINS(feature, 'feature2') AND  numeric1 > 3) 
UNION (
         SELECT id, label, textual1 
         FROM table  
         WHERE 
                   ARRAY_CONTAINS(type, 'productType1') 
              AND ARRAY_CONTAINS(feature, 'feature1') 
              AND ARRAY_CONTAINS(feature, 'feature3') 
              AND  numeric2 > 4
      ) 

ORDER BY label

Run Code Online (Sandbox Code Playgroud)

hive apache-spark-sql

Abi*_*rty

2023 07-06

6
推荐指数

1
解决办法

1万
查看次数

Spark SQL 使用 foldLeft 和 withColumn 替代 groupby/pivot/agg/collect_list 以提高性能

我有一个由三列组成的 Spark DataFrame：

 id | col1 | col2 
-----------------
 x  |  p1  |  a1  
-----------------
 x  |  p2  |  b1
-----------------
 y  |  p2  |  b2
-----------------
 y  |  p2  |  b3
-----------------
 y  |  p3  |  c1

Run Code Online (Sandbox Code Playgroud)

申请后，df.groupBy("id").pivot("col1").agg(collect_list("col2"))我得到以下数据帧（aggDF）：

+---+----+--------+----+
| id|  p1|      p2|  p3|
+---+----+--------+----+
|  x|[a1]|    [b1]|  []|
|  y|  []|[b2, b3]|[c1]|
+---+----+--------+----+

Run Code Online (Sandbox Code Playgroud)

然后我找到除了列之外的id列的名称。

val cols = aggDF.columns.filter(x => x != "id")

Run Code Online (Sandbox Code Playgroud)

之后我cols.foldLeft(aggDF)((df, x) => df.withColumn(x, when(size(col(x)) > 0, col(x)).otherwise(lit(null))))用null. …

apache-spark apache-spark-sql apache-spark-dataset

Abi*_*rty

2019 12-27

5
推荐指数

1
解决办法

1558
查看次数

Spark SQL中的数组交集

我有一个名为数组类型列的表,writer其值为array[value1, value2],array[value2, value3]....等.

我正在做的self join是获得在数组之间具有共同值的结果.我试过了:

sqlContext.sql("SELECT R2.writer FROM table R1 JOIN table R2 ON R1.id != R2.id WHERE ARRAY_INTERSECTION(R1.writer, R2.writer)[0] is not null ")

Run Code Online (Sandbox Code Playgroud)

和

sqlContext.sql("SELECT R2.writer FROM table R1 JOIN table R2 ON R1.id != R2.id WHERE ARRAY_INTERSECT(R1.writer, R2.writer)[0] is not null ")

Run Code Online (Sandbox Code Playgroud)

但有同样的例外:

线程"main"中的异常org.apache.spark.sql.AnalysisException:未定义的函数:'ARRAY_INTERSECT'.此函数既不是已注册的临时函数,也不是在数据库'default'中注册的永久函数.第1行pos 80

可能Spark SQL不支持ARRAY_INTERSECTION和ARRAY_INTERSECT.我怎样才能实现我的目标Spark SQL？

hiveql apache-spark apache-spark-sql spark-dataframe apache-spark-dataset

Abi*_*rty

2017 03-10

3
推荐指数

2
解决办法

4020
查看次数

标签统计

apache-spark-sql ×5

apache-spark ×4

apache-spark-dataset ×2

spark-dataframe ×2

hive ×1

hiveql ×1

createOrReplaceTempView如何在Spark中运行？

Spark SQL 中的 OFFSET 相当于什么？

在 Spark SQL 中使用 ARRAY_CONTAINS 匹配多个值

Spark SQL 使用 foldLeft 和 withColumn 替代 groupby/pivot/agg/collect_list 以提高性能

Spark SQL中的数组交集

标签 统计

小编Abi_rty的帖子

标签统计