为什么NaN值的比较与所有其他值的行为不同?也就是说,与运算符==,<=,> =,<,>的所有比较(其中一个或两个值为NaN)返回false,这与所有其他值的行为相反.
我想这可以通过某种方式简化数值计算,但我找不到明确说明的理由,甚至在Kahan 的IEEE 754状态讲义中也没有详细讨论其他设计决策.
这种异常行为在进行简单数据处理时会造成麻烦.例如,当在C程序中对某些实值字段的记录列表进行排序时,我需要编写额外的代码来处理NaN作为最大元素,否则排序算法可能会变得混乱.
编辑: 迄今为止的答案都认为比较NaNs毫无意义.
我同意,但这并不意味着正确的答案是错误的,而是一个非布尔值(NaB),幸运的是它不存在.
因此,在我看来,选择返回真或假的比较是任意的,对于一般数据处理,如果它遵循通常的定律(==的反射性,<= =,>的三分法),那将是有利的,以免数据结构依赖这些法律变得困惑.
因此,我要求打破这些法律的一些具体优势,而不仅仅是哲学推理.
编辑2: 我想我现在理解为什么使NaN最大化是一个坏主意,它会搞砸上限的计算.
可能需要NaN!= NaN以避免检测环路中的收敛,例如
while (x != oldX) {
oldX = x;
x = better_approximation(x);
}
Run Code Online (Sandbox Code Playgroud)
然而,最好通过比较绝对差异与小限制来编写.所以恕我直言,这是打破NaN反身性的一个相对弱的论据.
用这个DataFrame说
df = pd.DataFrame({'name' : ['A','B'], 'date' : pd.to_datetime(['2000-01-01','2000-01-02']), 'value' : [np.nan, 1]})
date name value
0 2000-01-01 A NaN
1 2000-01-02 B 1.0
Run Code Online (Sandbox Code Playgroud)
我怎么可以检查哪些元素是nan里面df.applymap?(即不使用df.isnull)
问题出在我想使用pandas html样式的地方。我们有内置的nan突出显示
df.style.highlight_null()
Run Code Online (Sandbox Code Playgroud)
但它会更改背景色,相反,我希望“ nan”显示为红色。
所以我需要自己做 applymap
df.style.applymap(lambda x: 'color: red' if isnan(x) else '')
Run Code Online (Sandbox Code Playgroud)
但是,当值也可以是日期时间/字符串时,如何检查值是否为nan?np.isnan将失败的字符串。np.isreal(x) and np.isnan(x)在日期时间也失败。