检查 PySpark 列是否与正则表达式匹配并根据结果创建新列

Question

检查 PySpark 列是否与正则表达式匹配并根据结果创建新列

aha*_*jib 6 python regex apache-spark pyspark

我有一个 PySpark 数据框，如下所示：

df:
+----+--------------------+
|  ID|               Email|
+----+--------------------+
|2345|  sample@example.org|
|2398| sample2@example.org|
|2328|   sampleexample.org|
|3983|   sample@exampleorg|
+----+--------------------+

Run Code Online (Sandbox Code Playgroud)

我想将正则表达式应用于上述数据框（电子邮件列），并根据匹配结果（True 或 False）添加新列。我的正则表达式：

regex = '^\w+([\.-]?\w+)*@\w+([\.-]?\w+)*(\.\w{2,3})+$'

Run Code Online (Sandbox Code Playgroud)

基本上检查它是否是有效的电子邮件。所需的输出是：

df2:
+----+--------------------+--------+
|  ID|               Email| Matched|
+----+--------------------+--------+
|2345|  sample@example.org|    True|
|2398| sample2@example.org|    True|
|2328|   sampleexample.org|   False|
|3983|   sample@exampleorg|   False|
+----+--------------------+--------+

Run Code Online (Sandbox Code Playgroud)

我只知道数据框filter会删除那些与模式不匹配的数据框，但这不是期望的结果。我还考虑过使用该正则表达式作为函数并将其应用到电子邮件列，并执行如下操作：

def check(email):  
    if(re.search(regex, email)):  
        return True
    else:  
        return False
udf_check_email = udf(check, BooleanType())
df.withColumn('matched', udf_check_email(df.email)).show()

Run Code Online (Sandbox Code Playgroud)

但我不确定这是否是最有效的方法。

Answer 1

Sur*_*esh 8

我们可以使用SQL rlike函数作为，

df = df.withColumn('matched',F.when(df.email.rlike('^\w+([\.-]?\w+)*@\w+([\.-]?\w+)*(\.\w{2,3})+$'),True).otherwise(False))

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年，8 月前
查看次数：	4623 次
最近记录：	5 年，5 月前