在 Spark 数据集中对数字字符串进行排序

Question

在 Spark 数据集中对数字字符串进行排序

J-A*_*lex 4 scala apache-spark apache-spark-dataset

让我们假设我有以下内容Dataset：

+-----------+----------+
|productCode|    amount|
+-----------+----------+
|      XX-13|       300|
|       XX-1|       250|
|       XX-2|       410|
|       XX-9|        50|
|      XX-10|        35|
|     XX-100|       870|
+-----------+----------+

Run Code Online (Sandbox Code Playgroud)

其中productCode是String类型，amount是Int。

如果有人尝试按productCode结果排序（并且由于String比较的性质，这是预期的）：

def orderProducts(product: Dataset[Product]): Dataset[Product] = {
    product.orderBy("productCode")
}

// Output:
+-----------+----------+
|productCode|    amount|
+-----------+----------+
|       XX-1|       250|
|      XX-10|        35|
|     XX-100|       870|
|      XX-13|       300|
|       XX-2|       410|
|       XX-9|        50|
+-----------+----------+

Run Code Online (Sandbox Code Playgroud)

考虑到API，如何获得按以下Integer部分排序的输出？productCodeDataset

+-----------+----------+
|productCode|    amount|
+-----------+----------+
|       XX-1|       250|
|       XX-2|       410|
|       XX-9|        50|
|      XX-10|        35|
|      XX-13|       300|
|     XX-100|       870|
+-----------+----------+

Run Code Online (Sandbox Code Playgroud)

Answer 1

sta*_*106 7

使用 orderBy 中的表达式。看一下这个：

scala> val df = Seq(("XX-13",300),("XX-1",250),("XX-2",410),("XX-9",50),("XX-10",35),("XX-100",870)).toDF("productCode", "amt")
df: org.apache.spark.sql.DataFrame = [productCode: string, amt: int]

scala> df.orderBy(split('productCode,"-")(1).cast("int")).show
+-----------+---+
|productCode|amt|
+-----------+---+
|       XX-1|250|
|       XX-2|410|
|       XX-9| 50|
|      XX-10| 35|
|      XX-13|300|
|     XX-100|870|
+-----------+---+


scala>

Run Code Online (Sandbox Code Playgroud)

使用窗口函数，你可以这样做

scala> df.withColumn("row1",row_number().over(Window.orderBy(split('productCode,"-")(1).cast("int")))).show(false)
18/12/10 09:25:07 WARN window.WindowExec: No Partition Defined for Window operation! Moving all data to a single partition, this can cause serious performance degradation.
+-----------+---+----+
|productCode|amt|row1|
+-----------+---+----+
|XX-1       |250|1   |
|XX-2       |410|2   |
|XX-9       |50 |3   |
|XX-10      |35 |4   |
|XX-13      |300|5   |
|XX-100     |870|6   |
+-----------+---+----+


scala>

Run Code Online (Sandbox Code Playgroud)

请注意，spark 抱怨将所有数据移动到单个分区。

归档时间：	7 年，6 月前
查看次数：	1885 次
最近记录：	7 年，6 月前