什么是python相当于R的NA?

pow*_*wer 20 python numpy data-scrubbing pandas scikit-learn

什么是python相当于R的NA?

更具体地说:R具有NaN,NA,NULL,Inf和-Inf.NA通常在缺少数据时使用.什么是python的等价物?

像numpy和pandas这样的库如何处理缺失值?

scikit-learn如何处理缺失值?

python 2.7和python 3有什么不同吗?

N1B*_*1B4 14

nan 在numpy处理好很多功能:

>>> import numpy as np
>>> a = [1, np.nan, 2, 3]
>>> np.nanmean(a)
2.0
>>> np.nansum(a)
6.0
>>> np.isnan(a)
array([False,  True, False, False], dtype=bool)
Run Code Online (Sandbox Code Playgroud)


And*_*ler 7

Scikit-learn目前不处理缺失值.对于大多数机器学习算法,不清楚如何处理缺失值,因此我们依赖于在将它们提供给算法之前处理它们的用户.Numpy没有"缺失"的价值.Pandas使用NaN,但在数字算法中可能会导致混淆.可以使用蒙面数组,但我们不会在scikit-learn(尚未)中这样做.


JAB*_*JAB 5

pandas看看这个。

http://pandas.pydata.org/pandas-docs/dev/missing_data.html

熊猫使用NaN。您可以使用isnull()或来测试空值not null(),使用dropna()etc将其从数据框中删除。datetime对象的等效项是NaT

  • 可能值得注意的是,整数熊猫“系列”(或列)必须具有值。无法用整数序列表示缺失值。通常的选择是上转换为具有NaN的浮点类型。 (3认同)