通过特征选择(即chi2方法)产生的p值的含义是什么?

Qin*_*hua 5 python classification feature-selection scikit-learn

最近,我使用sklearn(一个python meachine学习库)来做一个短文本分类任务.我发现SelectKBest类可以选择K最好的功能.然而,SelectKBest的第一个参数是一个得分函数,它"取两个数组X和y,并返回一对数组(得分,p值)".我知道得分,但是pvalues的含义是什么?

eic*_*erg 8

通常,p值表示在零假设下给定结果或更极端结果的可能性.在您的特征选择的情况下,零假设就像这个特征不包含关于预测目标的信息,其中没有信息在评分方法的意义上被解释:如果您的评分方法测试例如单变量线性交互(f_classif,f_regressionsklearn.feature_selection是你的评分函数的选项),然后零假设说这种线性交互不存在.

TL; DR特征选择分数的p值表示 如果该变量未显示与目标的相互作用,则获得该分数或更高分数的概率.

另一种笼统的说法:分数如果更大更好,p值更好的,如果小(和损失如果小越好)

  • 实际上,p值表示在独立性假设下获得得分*或任何较低得分*的概率:它是分布尾部下的区域.值得一提的是,'SelectFdr`和朋友使用p值(fdr =错误的发现率),而'SelectKBest`和`SelectPercentile`使用得分,并且API的模型是在` scipy.stats`.其余答案为+1. (2认同)