use*_*428 2 python scikit-learn
我正在阅读 MaxAbsScaler 的文档。
https://scikit-learn.org/stable/modules/preprocessing.html#scaling-features-to-a-range
我无法理解它到底是做什么的。
下面是一个例子:
>>> X_train = np.array([[ 1., -1., 2.],
... [ 2., 0., 0.],
... [ 0., 1., -1.]])
...
>>> max_abs_scaler = preprocessing.MaxAbsScaler()
>>> X_train_maxabs = max_abs_scaler.fit_transform(X_train)
>>> X_train_maxabs # doctest +NORMALIZE_WHITESPACE^
array([[ 0.5, -1. , 1. ],
[ 1. , 0. , 0. ],
[ 0. , 1. , -0.5]])
>>> X_test = np.array([[ -3., -1., 4.]])
>>> X_test_maxabs = max_abs_scaler.transform(X_test)
>>> X_test_maxabs
array([[-1.5, -1. , 2. ]])
>>> max_abs_scaler.scale_
array([2., 1., 2.])
Run Code Online (Sandbox Code Playgroud)
它说它通过除以每个特征中的最大最大值来缩放训练数据在 [-1, 1] 范围内。
我认为当它在每个功能中说时,它可以按列工作。
一个更简单的解释会很棒。
该函数按每个特征的最大绝对值缩放。 这里的特征是 X 输入矩阵的每一列。
在这里你有:
X_train = np.array([[ 1., -1., 2.],
[ 2., 0., 0.],
[ 0., 1., -1.]])
Run Code Online (Sandbox Code Playgroud)
你会得到:
array([[ 0.5, -1. , 1. ],
[ 1. , 0. , 0. ],
[ 0. , 1. , -0.5]])
Run Code Online (Sandbox Code Playgroud)
训练集说明:
中的第一个特征X_train
是第一列,即[1,2,0]
。最大绝对值为2
。然后,您将此列的所有值除以2
。所以新列变成[0.5,1,0]
同样,您对其他 2 个功能/列执行相同的操作。对于特征 2,最大绝对值为1
。所以新列保持不变。
最后,对于最后一个特征,您的最大绝对值为2
。所以最终的特征变成了[2/2 , 0/2 , -1/2] = [1, 0, -0.5]
.
测试集说明
接下来,您定义X_test = np.array([[ -3., -1., 4.]])
. 在这里,您有一个具有 3 个功能的示例。
重要提示:缩放器使用训练集进行训练,并将使用训练集的最大绝对值。
所以你得到: [ -3./2, -1./1, 4./2] = [-1.5, -1. , 2. ]
PS:2,1 and 2
用于除法的值来自使用训练集的估计。