如何忽略numpy数组中的NaN数据点并在Python中生成规范化数据?

xxx*_*222 10 python numpy scipy scikit-learn

假设我有一个有一些浮点数('nan')的numpy数组,我现在不想归咎于那些数据,我想首先将这些数据归一化并将NaN数据保留在原始空间,我有什么方法可以做那?

以前我使用过normalize函数sklearn.Preprocessing,但是这个函数似乎不能将任何包含NaN的数组作为输入.

Chi*_*iel 19

您可以使用该numpy.ma.array函数屏蔽数组,然后应用任何numpy操作:

import numpy as np

a = np.random.rand(10)            # Generate random data.
a = np.where(a > 0.8, np.nan, a)  # Set all data larger than 0.8 to NaN

a = np.ma.array(a, mask=np.isnan(a)) # Use a mask to mark the NaNs

a_norm  = a / np.sum(a) # The sum function ignores the masked values.
a_norm2 = a / np.std(a) # The std function ignores the masked values.
Run Code Online (Sandbox Code Playgroud)

您仍然可以访问原始数据:

print a.data
Run Code Online (Sandbox Code Playgroud)

  • 他们将留在那里。“numpy”操作只是跳过 NaN 值。 (2认同)
  • 棒极了!太感谢了! (2认同)

War*_*ser 5

您可以使用numpy.nansum来计算范数并忽略 nan:

In [54]: x
Out[54]: array([  1.,   2.,  nan,   3.])
Run Code Online (Sandbox Code Playgroud)

这是nan被忽略的规范:

In [55]: np.sqrt(np.nansum(np.square(x)))
Out[55]: 3.7416573867739413
Run Code Online (Sandbox Code Playgroud)

y 是归一化数组:

In [56]: y = x / np.sqrt(np.nansum(np.square(x)))

In [57]: y
Out[57]: array([ 0.26726124,  0.53452248,         nan,  0.80178373])

In [58]: np.linalg.norm(y[~np.isnan(y)])
Out[58]: 1.0
Run Code Online (Sandbox Code Playgroud)