Qin*_*hua 5 python classification feature-selection scikit-learn
最近,我使用sklearn(一个python meachine学习库)来做一个短文本分类任务.我发现SelectKBest类可以选择K最好的功能.然而,SelectKBest的第一个参数是一个得分函数,它"取两个数组X和y,并返回一对数组(得分,p值)".我知道得分,但是pvalues的含义是什么?
通常,p值表示在零假设下给定结果或更极端结果的可能性.在您的特征选择的情况下,零假设就像这个特征不包含关于预测目标的信息,其中没有信息在评分方法的意义上被解释:如果您的评分方法测试例如单变量线性交互(f_classif,f_regression在sklearn.feature_selection是你的评分函数的选项),然后零假设说这种线性交互不存在.
TL; DR特征选择分数的p值表示 如果该变量未显示与目标的相互作用,则获得该分数或更高分数的概率.
另一种笼统的说法:分数是如果更大更好,p值是更好的,如果小(和损失是如果小越好)
| 归档时间: |
|
| 查看次数: |
5046 次 |
| 最近记录: |