如何更加重视机器学习中的某些功能?

28r*_*28r 13 nlp machine-learning scikit-learn deep-learning

如果使用像scikit-learn这样的库,如何在输入中为SVM等分类器赋予更多权重?这是人们做的事情还是我的问题的另一种解决方案?

lej*_*lot 15

首先 - 你可能不应该这样做.机器学习的整个概念是使用统计分析来分配最佳权重.您正在干涉整个概念,因此您需要非常有力的证据证明这对您尝试建模的过程至关重要,并且由于某种原因,您的模型目前缺少它.

话虽如此 - 没有一般答案.这纯粹是模型特定的,其中一些将允许您对权重进行加权 - 在随机森林中,您可以偏向分布,您可以从中分析要分析的内容以及您感兴趣的内容; 在SVM中,将给定的特征乘以常量应该足够了 - 还记得当你被告知在SVM中规范化你的特征时吗?这就是为什么 - 您可以使用功能的比例来将您的分类器"引导"到给定的功能.具有高值的那些将被优先考虑.这实际上适用于任何权重范数正则化模型(正则化逻辑回归,岭回归,套索等).

  • sample_weight是对特定**样本**(实例,点,对象)进行加权,而不是整个类(尽管它可以用于此目的).这用于例如实现增强方法,其迭代地超重先前错误分类的样本.它还用于在不平衡分类中超重少数类.然而,这又是一个与问题中的权重不同的权重 (2认同)