Lev*_*von 4 machine-learning normalize scikit-learn data-preprocessing
有理由不默认标准化所有功能吗?我意识到这对于决策树等来说可能不是必需的,但对于某些算法(例如 KNN、SVM 和 K-Means)来说可能不是必需的。定期对我的所有功能执行此操作会有什么危害吗?
另外,标准化优于规范化似乎是共识?什么时候这不是一个好主意?
根据我的经验,当您的数据集包含范围非常不同的特征(例如年龄与每间房屋的美元数量)时,标准化和归一化会产生最大(积极)的影响
根据我的专业经验,在使用汽车传感器(时间序列)进行项目时,我注意到标准化(最小-最大缩放)即使应用于神经网络,也会对训练产生负面影响过程,当然还有最终的结果。诚然,传感器特征(值)彼此非常接近。考虑到我正在研究时间序列,这是一个非常有趣的结果,大多数数据科学家默认采用缩放(按照理论,它们最终是神经网络)。
原则上,当数据集中存在特定异常值时,最好应用标准化,因为标准化会产生较小的标准偏差值。据我所知,这是标准化比标准化更受青睐的主要原因,也是标准化比异常值更稳健的主要原因。
三年前,如果有人问我这个问题,我会说“标准化”是出路。现在我说,遵循原则,但在得出某个结论之前先检验每个假设。
| 归档时间: |
|
| 查看次数: |
473 次 |
| 最近记录: |