熊猫、numpy.where() 和 numpy.nan

Question

熊猫、numpy.where() 和 numpy.nan

Dun*_*yre 5 python numpy nan dataframe pandas

我想使用numpy.where()向pandas.DataFrame添加一列。我想对条件为假的行使用 NaN 值（以指示这些值“缺失”）。

考虑：

>>> import numpy; import pandas
>>> df = pandas.DataFrame({'A':[1,2,3,4]}); print(df)
   A
0  1
1  2
2  3
3  4
>>> df['B'] = numpy.nan
>>> df['C'] = numpy.where(df['A'] < 3, 'yes', numpy.nan)
>>> print(df)
   A   B    C
0  1 NaN  yes
1  2 NaN  yes
2  3 NaN  nan
3  4 NaN  nan
>>> df.isna()
       A     B      C
0  False  True  False
1  False  True  False
2  False  True  False
3  False  True  False

Run Code Online (Sandbox Code Playgroud)

为什么B显示“NaN”而C显示“nan”？为什么DataFrame.isna()无法检测到 C 中的 NaN 值？

我应该在什么地方使用 numpy.nan 以外的东西？None并且pandas.NA两者似乎都可以工作并且可以被 DataFrame.isna() 检测到，但我不确定这些是最佳选择。

谢谢！

编辑：根据@Tim Roberts 和@DYZ，numpy.where 返回一个字符串类型的数组，因此在 numpy.NaN 上调用 str 构造函数。C列中的值实际上是字符串“nan”。然而，问题仍然存在：这里最优雅的事情是什么？我应该使用None吗？或者是其他东西？

Answer 1

DYZ*_*DYZ 5

np.where将第二个和第三个参数强制为相同的数据类型。由于第二个参数是字符串，因此第三个参数也通过调用 function 转换为字符串str()：

str(numpy.nan)
# 'nan'

Run Code Online (Sandbox Code Playgroud)

结果，C 列中的值都是字符串。

您可以先用填充 NaN 行None，然后将它们转换为np.nanwith fillna()：

df['C'] = numpy.where(df['A'] < 3, 'yes', None)
df['C'].fillna(np.nan, inplace=True)

Run Code Online (Sandbox Code Playgroud)

归档时间：	4 年，9 月前
查看次数：	139 次
最近记录：	4 年，9 月前