如何规范化scikit-learn中的某些列？

Question

如何规范化scikit-learn中的某些列？

Yah*_*din 9 python normalization scikit-learn

我有类似以下的数据:

[
   [0, 4, 15]
   [0, 3, 7]
   [1, 5, 9]
   [2, 4, 15]
]

Run Code Online (Sandbox Code Playgroud)

我用oneHotEncoder http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing.OneHotEncoder.fit_transform预处理这个数据,所以它适合线性回归给我这个:

[
   [1, 0, 0, 4, 15]
   [1, 0, 0, 3, 7]
   [0, 1, 0, 5, 9]
   [0, 0, 1, 4, 15]
]

Run Code Online (Sandbox Code Playgroud)

但是,我希望将这些数据标准化.

到目前为止,我只是将数据规范化,如下所示:

preprocessing.normalize(data)

Run Code Online (Sandbox Code Playgroud)

但是,这会将所有列(包括类别列)标准化.

我的问题如下:

如何仅标准化某些列？
是否需要规范化类别数据,还是应该避免使用它？

谢谢!

Answer 1

Kev*_*vin 7

用于numpy将一部分数据传递给normalize.至于关于规范化类别数据的问题,您可能会在CrossValidated上得到更好的答案.

第一个问题的示例:

In [1]: import numpy as np
        from sklearn.preprocessing import normalize

        # Values as floats or normalize raises a type error
        X1 = np.array([
                      [1., 0., 0., 4., 15.],
                      [1., 0., 0., 3., 7.],
                      [0., 1., 0., 5., 9.],
                      [0., 0., 1., 4., 15.],
                      ])

In [2]: X1[:, [3,4]] # last two columns
Out[2]: array([[  4.,  15.],
               [  3.,   7.],
               [  5.,   9.],
               [  4.,  15.]])

Run Code Online (Sandbox Code Playgroud)

规范化最后两列并分配给一个新的numpy数组X2.

In [3]: X2 = normalize(X1[:, [3,4]], axis=0) #axis=0 for column-wise
        X2
Out[3]: array([[ 0.49236596,  0.6228411 ],
               [ 0.36927447,  0.29065918],
               [ 0.61545745,  0.37370466],
               [ 0.49236596,  0.6228411 ]])

Run Code Online (Sandbox Code Playgroud)

现在连接X1并X2获得所需的输出.

In [4]: np.concatenate(( X1[:,[0,1,2]], X2), axis=1)
Out[4]: array([[ 1.        ,  0.        ,  0.        ,  0.49236596,  0.6228411 ],
               [ 1.        ,  0.        ,  0.        ,  0.36927447,  0.29065918],
               [ 0.        ,  1.        ,  0.        ,  0.61545745,  0.37370466],
               [ 0.        ,  0.        ,  1.        ,  0.49236596,  0.6228411 ]])

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年前
查看次数：	12194 次
最近记录：	8 年，7 月前