pow*_*wer 20 python numpy data-scrubbing pandas scikit-learn
什么是python相当于R的NA?
更具体地说:R具有NaN,NA,NULL,Inf和-Inf.NA通常在缺少数据时使用.什么是python的等价物?
像numpy和pandas这样的库如何处理缺失值?
scikit-learn如何处理缺失值?
python 2.7和python 3有什么不同吗?
N1B*_*1B4 14
nan 在numpy处理好很多功能:
>>> import numpy as np
>>> a = [1, np.nan, 2, 3]
>>> np.nanmean(a)
2.0
>>> np.nansum(a)
6.0
>>> np.isnan(a)
array([False, True, False, False], dtype=bool)
Run Code Online (Sandbox Code Playgroud)
Scikit-learn目前不处理缺失值.对于大多数机器学习算法,不清楚如何处理缺失值,因此我们依赖于在将它们提供给算法之前处理它们的用户.Numpy没有"缺失"的价值.Pandas使用NaN,但在数字算法中可能会导致混淆.可以使用蒙面数组,但我们不会在scikit-learn(尚未)中这样做.
为pandas看看这个。
http://pandas.pydata.org/pandas-docs/dev/missing_data.html
熊猫使用NaN。您可以使用isnull()或来测试空值not null(),使用dropna()etc将其从数据框中删除。datetime对象的等效项是NaT
| 归档时间: |
|
| 查看次数: |
31644 次 |
| 最近记录: |