Jan*_*lly 2 classification machine-learning weighted scikit-learn
为每个样本提供权重进行分类是什么意思?诸如 Logistic 回归或 SVM 之类的分类算法如何使用权重来强调某些示例而不是其他示例?我很想详细了解这些算法如何利用样本权重。
如果您查看逻辑回归的 sklearn文档,您可以看到 fit 函数有一个可选的 sample_weight 参数,该参数定义为分配给单个样本的权重数组。
此选项适用于不平衡数据集。让我们举个例子:我有很多数据,有些只是噪音。但其他对我来说真的很重要,我希望我的算法比其他点更多地考虑它们。所以我给它分配了一个权重,以确保它会得到妥善处理。
它改变了计算损失的方式。误差(残差)将乘以点的权重,因此,目标函数的最小值将发生偏移。我希望它足够清楚。我不知道你是否熟悉它背后的数学,所以我在这里提供一个简短的介绍,让一切尽在掌握(如果不需要,请道歉) https://perso.telecom-paristech.fr/rgower/pdf /M2_statistique_optimisation/Intro-ML-expanded.pdf
| 归档时间: |
|
| 查看次数: |
1602 次 |
| 最近记录: |