使用正则表达式搜索和过滤 Pandas 数据框

Dai*_*ina 5 python regex pandas

我很感激你的帮助。我有一个熊猫数据框。我想使用正则表达式搜索数据框的 3 列,然后返回符合搜索条件的所有行,按我的一列排序。我想把它写成一个函数,这样我就可以在可能的情况下用其他标准来实现这个逻辑,但我不太确定如何做到这一点。

例如,我知道如何以这种方式提取搜索结果(col1 是列名):

idx1 = df.col1.str.contains(r'vhigh|high', flags=re.IGNORECASE, regex=True, na=False)

print df[~idx1]
Run Code Online (Sandbox Code Playgroud)

但我无法弄清楚如何采取这种类型的操作,并用多列执行它然后排序。有人有任何提示吗?

YS-*_*S-L 8

您可以使用apply使代码更简洁。例如,给定这个 DataFrame:

df = pd.DataFrame(
    {
        'col1': ['vhigh', 'low', 'vlow'],
        'col2': ['eee', 'low', 'high'],
        'val': [100,200,300]
    }
)
print df
Run Code Online (Sandbox Code Playgroud)

输入:

    col1  col2  val
0  vhigh   eee  100
1    low   low  200
2   vlow  high  300
Run Code Online (Sandbox Code Playgroud)

您可以选择包含字符串vhighhigh列的所有行col1col2如下:

mask = df[['col1', 'col2']].apply(
    lambda x: x.str.contains(
        'vhigh|high',
        regex=True
    )
).any(axis=1)
print df[mask]
Run Code Online (Sandbox Code Playgroud)

apply函数contains在每列上应用该函数(默认情况下axis=0)。该any函数返回一个布尔掩码,其中元素 True 表示至少一列符合搜索条件。然后可以使用它对原始 DataFrame 执行选择。

输出:

    col1  col2  val
0  vhigh   eee  100
2   vlow  high  300
Run Code Online (Sandbox Code Playgroud)

然后,要按列(例如val列)对结果进行排序,您可以简单地执行以下操作:

df[mask].sort('val')
Run Code Online (Sandbox Code Playgroud)

  • 括号的特殊用途称为 [布尔索引](http://pandas.pydata.org/pandas-docs/stable/indexing.html#boolean-indexing)。同一页面包含有关索引和选择数据的其他方式的信息,值得一读。 (2认同)