Zum*_*plo 4 python string match dataframe pandas
我有一个数据框,我想与一些关键字匹配(我想检测包含这些关键字的行)我设法通过这种方式获得了这份工作。但我想知道我可能有多达 10 或 20 个不同的关键字,是否有更好的方法来做到这一点。
df1 = df[df['column1'].str.contains("keyword1") | df['column1'].str.contains('keyword2')]
Run Code Online (Sandbox Code Playgroud)
(我是初学者,请尽量保持简单)
对于或逻辑,您可以通过将单词与|. 然后将您的 10-20 个单词存储在列表中'|'.join(that_list)。
import pandas as pd
import numpy as np
df = pd.DataFrame({'col1': ['foo', 'bar', 'baz', 'foobar', 'boo']})
words = ['foo', 'bar']
df['foo_OR_bar'] = df['col1'].str.contains('|'.join(words))
# col1 foo_OR_bar
#0 foo True
#1 bar True
#2 baz False
#3 foobar True
#4 boo False
#To slice by that Boolean Series
df1 = df.loc[df['col1'].str.contains('|'.join(words))]
Run Code Online (Sandbox Code Playgroud)
如果您的连接逻辑是,那么我们可以使用np.logical_and.reduce列表理解来保持紧凑。
df['foo_AND_bar'] = np.logical_and.reduce([df.col1.str.contains(w) for w in words])
# col1 foo_OR_bar foo_AND_bar
#0 foo True False
#1 bar True False
#2 baz False False
#3 foobar True True
#4 boo False False
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
106 次 |
| 最近记录: |