Pyspark：如果列包含来自另一列的字符串（SQL LIKE 语句），则过滤数据框

Question

Pyspark：如果列包含来自另一列的字符串（SQL LIKE 语句），则过滤数据框

LN_*_*N_P 7 python sql-like apache-spark pyspark

我正在尝试按以下方式过滤我的 pyspark 数据框：我有一列long_text包含数字，一列包含数字。如果长文本包含number我想保留该列。我正在尝试使用 SQLLIKE语句，但似乎无法将其应用于另一列（此处number）我的代码如下：

from pyspark.sql.functions import regexp_extract, col, concat, lit
from pyspark.sql.types import *
PN_in_NC = (df
        .filter(df.long_text.like(concat(lit("%"), df.number, lit("%"))))))

Run Code Online (Sandbox Code Playgroud)

我收到以下错误： Method like([class org.apache.spark.sql.Column]) does not exist。

我尝试了多种方法来修复它（例如'%number%'在过滤器之前将字符串创建为列，而不是使用lit, using '%' + number + '%'）但没有任何效果。如果LIKE不能应用于另一列，是否有其他方法可以做到这一点？

Answer 1

gaw*_*gaw 19

您可以使用该contains功能。

from pyspark.sql.functions import *
df1 = spark.createDataFrame([("hahaha the 3 is good",3),("i dont know about 3",2),("what is 5 doing?",5),\
("ajajaj 123",2),("7 dwarfs",1)], ["long_text","number"]) 
df1.filter(col("long_text").contains(col("number"))).show()

Run Code Online (Sandbox Code Playgroud)

long_text 列应包含 number 列中的数字。

输出：

+--------------------+------+
|           long_text|number|
+--------------------+------+
|hahaha the 3 is good|     3|
|    what is 5 doing?|     5|
|          ajajaj 123|     2|
+--------------------+------+

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，3 月前
查看次数：	22455 次
最近记录：	7 年，3 月前