替换数据框的多个特定列中的值

Question

替换数据框的多个特定列中的值

我有以下数据框：

import pandas as pd
import numpy as np

raw_data = {
    'Score1': [42, 52, -999, 24, 73], 
    'Score2': [-999, -999, -999, 2, 1],
    'Score3': [2, 2, -999, 2, -999]}
df = pd.DataFrame(raw_data, columns = ['Score1', 'Score2', 'Score3'])

Run Code Online (Sandbox Code Playgroud)

我只想在 Score2 和 Score3 列中用 NaN 替换 -999，而 Score1 列保持不变。我想引用要按名称修改的列，它们可能不是连续的。

我试过这样的事情：

df.loc[:,('Score2', 'Score3')].replace(-999, np.nan, inplace=True)
df

Run Code Online (Sandbox Code Playgroud)

但这不起作用，我假设是因为它在副本上运行。有没有办法在一个声明中做到这一点？

我查看了Pandas 替换特定列上的值，但发现它很混乱，所以觉得一个更简单的例子会有所帮助。

Answer 1

jez*_*ael 5

您不能使用inplace=True，因为子集返回一个可能将其数据作为视图的系列。就地修改它并不总是将它传播回父对象。这就是为什么SettingWithCopyWarning在那里是可能的（或者如果你设置了这个选项就加注）。你永远不应该这样做，他们也永远不是这样做的理由。

df[['Score2', 'Score3']] = df[['Score2', 'Score3']].replace(-999, np.nan)
print (df)
   Score1  Score2  Score3
0      42     NaN     2.0
1      52     NaN     2.0
2    -999     NaN     NaN
3      24     2.0     2.0
4      73     1.0     NaN

Run Code Online (Sandbox Code Playgroud)

Answer 2

Zer*_*ero 5

用

In [282]: df.replace({'Score2': -999, 'Score3': -999}, np.nan)
Out[282]:
   Score1  Score2  Score3
0      42     NaN     2.0
1      52     NaN     2.0
2    -999     NaN     NaN
3      24     2.0     2.0
4      73     1.0     NaN

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，4 月前
查看次数：	2167 次
最近记录：	7 年，4 月前