Pandas适用但仅适用于满足条件的行

mgo*_*ser 36 python pandas

我想使用Pandas df.apply但仅限于某些行

作为一个例子,我想做这样的事情,但我的实际问题有点复杂:

import pandas as pd
import math
z = pd.DataFrame({'a':[4.0,5.0,6.0,7.0,8.0],'b':[6.0,0,5.0,0,1.0]})
z.where(z['b'] != 0, z['a'] / z['b'].apply(lambda l: math.log(l)), 0)
Run Code Online (Sandbox Code Playgroud)

在这个例子中我想要的是'a'中的值除以每行中'b'中值的对数,对于'b'为0的行,我只想返回0.

jak*_*vdp 39

其他答案非常好,但我想我会添加另一种在某些情况下更快的方法 - 使用广播和屏蔽来实现相同的结果:

import numpy as np

mask = (z['b'] != 0)
z_valid = z[mask]

z['c'] = 0
z.loc[mask, 'c'] = z_valid['a'] / np.log(z_valid['b'])
Run Code Online (Sandbox Code Playgroud)

特别是对于非常大的数据帧,这种方法通常比基于的解决方案更快apply().

  • 它是一个布尔掩码,仅选择非零值。您可以在这里阅读更多信息:https://jakevdp.github.io/PythonDataScienceHandbook/03.02-data-indexing-and-selection.html (2认同)

Lia*_*ley 27

您可以在lambda函数中使用if语句.

z['c'] = z.apply(lambda row: 0 if row['b'] in (0,1) else row['a'] / math.log(row['b']), axis=1)
Run Code Online (Sandbox Code Playgroud)

我也排除了1,因为log(1)为零.

输出:

   a  b         c
0  4  6  2.232443
1  5  0  0.000000
2  6  5  3.728010
3  7  0  0.000000
4  8  1  0.000000
Run Code Online (Sandbox Code Playgroud)


ban*_*ish 6

您可以使用带有条件的 lambda,如果输入值为 0,则返回 0 并跳过整个where子句:

z['c'] = z.apply(lambda x: math.log(x.b) if x.b > 0 else 0, axis=1)
Run Code Online (Sandbox Code Playgroud)

您还必须将结果分配给新列 ( z['c'])。


mas*_*kar 5

希望这可以帮助。简单易读

df['c']=df['b'].apply(lambda x: 0 if x ==0 else math.log(x))
Run Code Online (Sandbox Code Playgroud)