选择至少一个值高于阈值的所有列

Question

选择至少一个值高于阈值的所有列

我想选择至少有一个值高于阈值的列。例如，

df = pd.DataFrame({'A': [randint(1, 9) for x in xrange(10)], 'B': [randint(1, 9)*10 for x in xrange(10)], 'C': [randint(1, 9)*100 for x in xrange(10)]}) df A B C 0 9 40 300 1 9 70 700 2 5 70 900 3 8 80 900 4 7 50 200 5 9 30 900 6 2 80 700 7 2 80 400 8 5 80 300 9 7 70 800
Run Code Online (Sandbox Code Playgroud)
假设我想选择至少包含一个值 >70 的列。在这种情况下，我希望看到以下数据帧作为输出

df B C 0 40 300 1 70 700 2 70 900 3 80 900 4 50 200 5 30 900 6 80 700 7 80 400 8 80 300 9 70 800
Run Code Online (Sandbox Code Playgroud)

我能想到的唯一解决方案是循环遍历每一列，查看是否有任何值高于阈值（例如，使用.any()），然后将列数组传递给.filter()...但这感觉像是一个非常尴尬的解决方案。有没有更好的办法？

Answer 1

Sco*_*ton 7

使用 df.columns any：

df[df.columns[(df>70).any()]]

Run Code Online (Sandbox Code Playgroud)

输出：

Run Code Online (Sandbox Code Playgroud)

Answer 2

piR*_*red 5

您可以boolean使用沿列进行切片loc

df.loc[:, df.gt(70).any()]

    B    C
0  40  100
1  20  100
2  80  500
3  60  800
4  10  300
5  70  800
6  50  200
7  40  600
8  40  200
9  20  200

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，10 月前
查看次数：	2242 次
最近记录：	8 年，10 月前