相关疑难解决方法(0)

我需要过滤pandas数据框中的行,以便特定的字符串列包含至少一个提供的子字符串列表.子字符串可能包含异常/正则表达式字符.比较不应涉及正则表达式,并且不区分大小写.

例如:

lst = ['kdSj;af-!?', 'aBC+dsfa?\-', 'sdKaJg|dksaf-*']

我目前正在应用这样的面具:

mask = np.logical_or.reduce([df[col].str.contains(i, regex=False, case=False) for i in lst])
df = df[mask]

我的数据帧很大(约1十亿行),lst长度为100.是否有更有效的方法？例如,如果lst找到第一个项目,我们不应该测试该行的任何后续字符串.

30
推荐指数

2
解决办法

6942
查看次数