有人可以在 Scikit-learn 中解释 MaxAbsScaler 吗?

use*_*428 2 python scikit-learn

我正在阅读 MaxAbsScaler 的文档。

https://scikit-learn.org/stable/modules/preprocessing.html#scaling-features-to-a-range

我无法理解它到底是做什么的。

下面是一个例子:

>>> X_train = np.array([[ 1., -1.,  2.],
...                     [ 2.,  0.,  0.],
...                     [ 0.,  1., -1.]])
...
>>> max_abs_scaler = preprocessing.MaxAbsScaler()
>>> X_train_maxabs = max_abs_scaler.fit_transform(X_train)
>>> X_train_maxabs                # doctest +NORMALIZE_WHITESPACE^
array([[ 0.5, -1. ,  1. ],
       [ 1. ,  0. ,  0. ],
       [ 0. ,  1. , -0.5]])
>>> X_test = np.array([[ -3., -1.,  4.]])
>>> X_test_maxabs = max_abs_scaler.transform(X_test)
>>> X_test_maxabs                 
array([[-1.5, -1. ,  2. ]])
>>> max_abs_scaler.scale_         
array([2.,  1.,  2.])
Run Code Online (Sandbox Code Playgroud)

它说它通过除以每个特征中的最大最大值来缩放训练数据在 [-1, 1] 范围内。

我认为当它在每个功能中说时,它可以按列工作。

一个更简单的解释会很棒。

mak*_*kis 5

该函数按每个特征的最大绝对值缩放。 这里的特征是 X 输入矩阵的每一列。


在这里你有:

X_train = np.array([[ 1., -1.,  2.],
                    [ 2.,  0.,  0.],
                    [ 0.,  1., -1.]])
Run Code Online (Sandbox Code Playgroud)

你会得到:

array([[ 0.5, -1. ,  1. ],
       [ 1. ,  0. ,  0. ],
       [ 0. ,  1. , -0.5]])
Run Code Online (Sandbox Code Playgroud)

训练集说明

中的第一个特征X_train是第一列,即[1,2,0]。最大绝对值为2。然后,您将此列的所有值除以2。所以新列变成[0.5,1,0]

同样,您对其他 2 个功能/列执行相同的操作。对于特征 2,最大绝对值为1。所以新列保持不变。

最后,对于最后一个特征,您的最大绝对值为2。所以最终的特征变成了[2/2 , 0/2 , -1/2] = [1, 0, -0.5].


测试集说明

接下来,您定义X_test = np.array([[ -3., -1., 4.]]). 在这里,您有一个具有 3 个功能的示例。

重要提示缩放器使用训练集进行训练,并将使用训练集的最大绝对值。

所以你得到: [ -3./2, -1./1, 4./2] = [-1.5, -1. , 2. ]

PS:2,1 and 2用于除法的值来自使用训练集的估计。

  • 一般来说,使用任何 mL 模型时,最好在拟合模型之前始终缩放数据。如果不进行缩放,那么与具有较小值范围的特征相比,具有较大范围的特征将对模型产生更大的影响。考虑接受我的回答 (3认同)