如何将NumPy数组规范化到一定范围内?

end*_*ith 116 python arrays numpy scipy convenience-methods

在对音频或图像阵列进行一些处理之后,需要在一个范围内对其进行标准化,然后才能将其写回文件.这可以这样做:

# Normalize audio channels to between -1.0 and +1.0
audio[:,0] = audio[:,0]/abs(audio[:,0]).max()
audio[:,1] = audio[:,1]/abs(audio[:,1]).max()

# Normalize image to between 0 and 255
image = image/(image.max()/255.0)
Run Code Online (Sandbox Code Playgroud)

是否有一个不那么详细,方便的功能方法来做到这一点?matplotlib.colors.Normalize()似乎没有相关性.

unu*_*tbu 126

audio /= np.max(np.abs(audio),axis=0)
image *= (255.0/image.max())
Run Code Online (Sandbox Code Playgroud)

使用/=*=允许您消除中间临时数组,从而节省一些内存.乘法比分区便宜,所以

image *= 255.0/image.max()    # Uses 1 division and image.size multiplications
Run Code Online (Sandbox Code Playgroud)

比...略快

image /= image.max()/255.0    # Uses 1+image.size divisions
Run Code Online (Sandbox Code Playgroud)

由于我们在这里使用基本的numpy方法,我认为这是一个非常有效的numpy解决方案.

  • 我不知道为什么.但是,我对这个说法很有信心,并用timeit检查了它.使用乘法,您可以一次使用一位数.有了除法,特别是有大的除数,你必须使用多个数字,并"猜测"除数进入被除数的次数.你最终会做很多乘法问题来解决一个除法问题.用于除法的计算机算法可能与人类长除法不同,但我相信它比乘法更复杂. (19认同)
  • 可能值得一提的是空白图像除以零. (12认同)
  • 为什么乘法比划分更便宜? (7认同)
  • @endolith乘法比分区更便宜,因为它在汇编级别上实现的方式.除法算法不能并行化除法算法.https://en.wikipedia.org/wiki/Binary_multiplier (5认同)
  • 最大限度地减少有利于乘法的除法数是众所周知的优化技术. (5认同)

Tac*_*oda 53

如果数组包含正数据和负数据,我会选择:

import numpy as np

a = np.random.rand(3,2)

# Normalised [0,1]
b = (a - np.min(a))/np.ptp(a)

# Normalised [0,255] as integer
c = 255*(a - np.min(a))/np.ptp(a).astype(int)

# Normalised [-1,1]
d = 2.*(a - np.min(a))/np.ptp(a)-1
Run Code Online (Sandbox Code Playgroud)

另外,值得一提的是,即使不是OP的问题,标准化:

e = (a - np.mean(a)) / np.std(a)
Run Code Online (Sandbox Code Playgroud)

  • 根据您的需要,这是不正确的,因为它会翻转数据。例如,对 [0, 1] 的归一化将最大值设为 0,最小值设为 1。对于 [0, 1],您可以简单地将结果从 1 中减去以获得正确的归一化。 (2认同)
  • 最后一个也可以作为“scipy.stats.zscore”使用。 (2认同)
  • 如果这是范围,则“numpy.ptp()”返回 0,但如果数组中有一个“nan”,则返回“nan”。但是,如果范围为 0,则未定义归一化。当我们尝试除以 0 时,这会引发错误。 (2认同)

cjo*_*318 36

您也可以使用重新缩放sklearn.优点是您可以调整标准偏差的标准化,以及平均数据居中,并且可以在任一轴,特征或记录上执行此操作.

from sklearn.preprocessing import scale
X = scale( X, axis=0, with_mean=True, with_std=True, copy=True )
Run Code Online (Sandbox Code Playgroud)

关键词参数axis,with_mean,with_std是自我解释,并且在默认状态显示.copy如果设置为,则参数将就地执行操作False.文档在这里.


Sur*_*nan 20

类似问题的回答解决了我的问题

np.interp(a, (a.min(), a.max()), (-1, +1))
Run Code Online (Sandbox Code Playgroud)


yel*_*w01 12

您正在尝试对audio-1 到 +1image之间以及 0 到 255 之间的值进行最小-最大缩放。

使用sklearn.preprocessing.minmax_scale, 应该可以轻松解决您的问题。

例如:

audio_scaled = minmax_scale(audio, feature_range=(-1,1))
Run Code Online (Sandbox Code Playgroud)

shape = image.shape
image_scaled = minmax_scale(image.ravel(), feature_range=(0,255)).reshape(shape)
Run Code Online (Sandbox Code Playgroud)

注意:不要与将向量的范数(长度)缩放到某个值(通常为 1)的操作混淆,这通常也称为归一化。


u0b*_*6ae 11

您可以使用"i"(如idiv,imul ..)版本,它看起来并不坏:

image /= (image.max()/255.0)
Run Code Online (Sandbox Code Playgroud)

对于另一种情况,您可以编写一个函数来按字母顺序标准化n维数组:

def normalize_columns(arr):
    rows, cols = arr.shape
    for col in xrange(cols):
        arr[:,col] /= abs(arr[:,col]).max()
Run Code Online (Sandbox Code Playgroud)


小智 6

一个简单的解决方案是使用 sklearn.preprocessing 库提供的缩放器。

scaler = sk.MinMaxScaler(feature_range=(0, 250))
scaler = scaler.fit(X)
X_scaled = scaler.transform(X)
# Checking reconstruction
X_rec = scaler.inverse_transform(X_scaled)
Run Code Online (Sandbox Code Playgroud)

错误 X_rec-X 将为零。您可以根据需要调整 feature_range,甚至使用标准缩放器 sk.StandardScaler()