将关键字(字符串)与 Pandas 数据框匹配

Zum*_*plo 4 python string match dataframe pandas

我有一个数据框,我想与一些关键字匹配(我想检测包含这些关键字的行)我设法通过这种方式获得了这份工作。但我想知道我可能有多达 10 或 20 个不同的关键字,是否有更好的方法来做到这一点。

df1 = df[df['column1'].str.contains("keyword1") | df['column1'].str.contains('keyword2')]
Run Code Online (Sandbox Code Playgroud)

(我是初学者,请尽量保持简单)

ALo*_*llz 7

对于逻辑,您可以通过将单词与|. 然后将您的 10-20 个单词存储在列表中'|'.join(that_list)

import pandas as pd
import numpy as np

df = pd.DataFrame({'col1': ['foo', 'bar', 'baz', 'foobar', 'boo']})
words = ['foo', 'bar']

df['foo_OR_bar'] = df['col1'].str.contains('|'.join(words))

#     col1  foo_OR_bar
#0     foo        True
#1     bar        True
#2     baz       False
#3  foobar        True
#4     boo       False

#To slice by that Boolean Series
df1 = df.loc[df['col1'].str.contains('|'.join(words))]
Run Code Online (Sandbox Code Playgroud)

如果您的连接逻辑是那么我们可以使用np.logical_and.reduce列表理解来保持紧凑。

df['foo_AND_bar'] = np.logical_and.reduce([df.col1.str.contains(w) for w in words])

#     col1  foo_OR_bar  foo_AND_bar
#0     foo        True        False
#1     bar        True        False
#2     baz       False        False
#3  foobar        True         True
#4     boo       False        False
Run Code Online (Sandbox Code Playgroud)