分类变量的归一化

Kri*_*ssh 3 python-3.x pandas scikit-learn data-science

我有一个包含性别为男性和女性的数据集。我已经使用pandas功能将male转换为1,将female转换为0,现在的数据类型为int8。现在我想对诸如体重和身高之类的列进行标准化。那么应使用“性别”列做什么。是否应该规范化。我打算在线性回归中使用它。

Tim*_*Tim 5

因此,我认为您正在将标准化与标准化混为一谈。

正常化:

将数据重新缩放为[0; 1]

标准化:

重新缩放数据以使其平均值为0,标准差为1。

回到您的问题:

对于您的性别列,您的得分已经在0到1之间。因此,您的数据已经“标准化”。因此,您的问题应该是是否可以使您的数据标准化,答案是:是的,您可以,但实际上没有任何意义。这里已经讨论了这个问题:是否应该标准化二进制变量?