通过正则表达式捕获组拆分火花数据帧列中的字符串

Sha*_*iff 2 python-3.x apache-spark apache-spark-sql pyspark

鉴于以下数据框,我想将数字列拆分为数组中每个原始数字元素的 3 个字符的数组

给定数据框:

+---+------------------+
| id|           numbers|
+---+------------------+
|742|         000000000|
|744|            000000|
|746|003000000000000000|
+---+------------------+
Run Code Online (Sandbox Code Playgroud)

预期数据框:

+---+----------------------------------+
| id|           numbers                |
+---+----------------------------------+
|742| [000, 000, 000]                  |
|744| [000, 000]                       |
|746| [003, 000, 000, 000, 000, 000]   |
+---+----------------------------------+
Run Code Online (Sandbox Code Playgroud)

我尝试了不同的正则表达式,同时使用split下面给出的函数和我认为应该在第一次尝试时就可以使用的正则表达式:

import pyspark.sql.functions as f

df = spark.createDataFrame(
    [
        [742, '000000000'], 
        [744, '000000'], 
        [746, '003000000000000000'], 
    ],
    ["id", "numbers"]
)

df = df.withColumn("numbers", f.split("numbers", "[0-9]{3}"))

df.show()
Run Code Online (Sandbox Code Playgroud)

然而结果是

+---+--------------+
| id|       numbers|
+---+--------------+
|742|      [, , , ]|
|744|        [, , ]|
|746|[, , , , , , ]|
+---+--------------+
Run Code Online (Sandbox Code Playgroud)

我想了解我做错了什么。是否有可能设置全局标志以获取所有匹配项,或者我是否完全错过了正则表达式中的某些内容?

pau*_*ult 9

以下是不使用 a 的方法udf

df = df.withColumn(
    "numbers",
    f.split(f.regexp_replace("numbers", "([0-9]{3})(?!$)", r"$1,"), ",")
)

df.show(truncate=False)
#+---+------------------------------+
#|id |numbers                       |
#+---+------------------------------+
#|742|[000, 000, 000]               |
#|744|[000, 000]                    |
#|746|[003, 000, 000, 000, 000, 000]|
#+---+------------------------------+
Run Code Online (Sandbox Code Playgroud)

首先用于pyspark.sql.functions.regexp_replace将 3 位数字的序列替换为后跟逗号的序列。然后在逗号上拆分结果字符串。

替换模式"$1,"意味着首先捕获组,然后是逗号。

在匹配模式中,我们还包括对字符串结尾的负前瞻,(?!$), 以避免在字符串末尾添加逗号。

参考:REGEXP_REPLACE 捕获组