何时使用最小-最大-标量和标准-标量

Aka*_*dra 5 python-3.x scikit-learn

引用它时,请使用min-max-scaler,当使用Standard Scalar时。我认为这取决于数据。是否有任何数据特征需要考虑以决定采用哪种预处理方法。我看了看文档,但是有人可以给我更多的见解。

小智 5

缩放确实取决于您想要的数据类型。对于大多数情况,StandardScaler是首选的缩放器。如果您知道自己有一些异常值,请选择RobustScaler.

然后,您处理一些具有奇怪分布的特征,例如数字,使用这些缩放器并不是最好的选择。事实上,在这个数据集上,有很多像素为零,这意味着您可以在涉及除以标准差的分布中选择零。开发人员。不会有什么好处。因此,基本上,当某个特征的分布远非正态分布时,您就需要采取替代方案。

就数字而言,这MinMaxScaler是一个更好的选择。但是,如果您想将零保持为零(因为您使用稀疏矩阵),您将选择MaxAbsScaler.

注意:如果您希望某个功能遵循正态/均匀分布,无论原始分布是什么,也请查看 和QuantileTransformerPowerTransformer


小智 1

我希望这有帮助。
何时使用 MinMaxScaler、RobustScaler、StandardScaler 和 Normalizer
https://towardsdatascience.com/scale-standardize-or-normalize-with-scikit-learn-6ccc7d176a02