Pandas DataFrame 的条件计算列

Question

Pandas DataFrame 的条件计算列

我在 Pandas DataFrame 中有一个计算列，需要根据条件进行分配。例如：

if(data['column_a'] == 0):
    data['column_c'] = 0
else:
    data['column_c'] = data['column_b']

Run Code Online (Sandbox Code Playgroud)

但是，这会返回错误：

ValueError：系列的真值不明确。使用 a.empty、a.bool()、a.item()、a.any() 或 a.all()。

我有一种感觉，这与必须以矩阵样式完成的事实有关。将代码更改为三元语句也不起作用：

data['column_c'] = 0 if data['column_a'] == 0 else data['column_b']

Run Code Online (Sandbox Code Playgroud)

有谁知道实现这一目标的正确方法？将 apply 与 lambda 一起使用？我可以通过循环进行迭代，但我宁愿保持这种首选的 Pandas 方式。

Answer 1

EdC*_*ica 10

你可以做：

data['column_c'] = data['column_a'].where(data['column_a'] == 0, data['column_b'])

Run Code Online (Sandbox Code Playgroud)

这是矢量化的，您的尝试失败了，因为与的比较if不了解如何处理布尔值数组，因此出现错误

例子：

In [81]:
df = pd.DataFrame(np.random.randn(5,3), columns=list('abc'))
df

Out[81]:
          a         b         c
0 -1.065074 -1.294718  0.165750
1 -0.041167  0.962203  0.741852
2  0.714889  0.056171  1.197534
3  0.741988  0.836636 -0.660314
4  0.074554 -1.246847  0.183654

In [82]:
df['d'] = df['b'].where(df['b'] < 0, df['c'])
df

Out[82]:
          a         b         c         d
0 -1.065074 -1.294718  0.165750 -1.294718
1 -0.041167  0.962203  0.741852  0.741852
2  0.714889  0.056171  1.197534  1.197534
3  0.741988  0.836636 -0.660314 -0.660314
4  0.074554 -1.246847  0.183654 -1.246847

Run Code Online (Sandbox Code Playgroud)

归档时间：	9 年，4 月前
查看次数：	12051 次
最近记录：	9 年，4 月前