在 Pandas 数据框 .loc 中使用 Python 的“in”运算符

Ram*_*sto 3 python dataframe pandas

我正在使用一些 Pandas 数据框,但我不太明白为什么允许某些布尔运算符并在.loc-选择器中工作,而其他运算符却给出错误。准确地说,我们采用以下数据框:

import pandas as pd
df = pd.DataFrame({'A': 'foo bar foo bar foo bar foo foo'.split(),
                   'B': 'one one two thr two two one thr'.split()})
Run Code Online (Sandbox Code Playgroud)

现在 和 都'two' == 'two'评估'w' in 'two'为,但与以下作品True一起使用时:df.loc[...]

df.loc[df['B'] == 'two']
Run Code Online (Sandbox Code Playgroud)

打印输出

         A       B
    2   foo     two
    4   foo     two
    5   bar     two
Run Code Online (Sandbox Code Playgroud)

但以下会引发 -KeyError: False错误。

         A       B
    2   foo     two
    4   foo     two
    5   bar     two
Run Code Online (Sandbox Code Playgroud)

我知道解决这个问题的方法,但没有一个感觉特别顺利,更糟糕的是我根本不明白为什么 - 选择器'w' in df['B']不允许在.loc.

jps*_*jps 5

查看 的输出df['B'] == 'two并将其与 的输出进行比较'w' in df['B']。第一个将输出一个 panda Series,其中的每一行包含 True 或 False df['B']。第二个将输出False.

运算.loc符可以采用“与被切片的轴长度相同的布尔数组,例如 [True, False, True]”(请参阅​​ .loc 文档)。您获得 是KeyError: False因为.loc尝试查找False哪个既不是列名也不是行名。

要使用w in df['B']- 表达式,您可以执行以下操作:

list_true_false = ['w' in entry for entry in df['B']]`

df.loc[list_true_false]`
Run Code Online (Sandbox Code Playgroud)

希望有帮助!