Ous*_*bri 3 machine-learning python-3.x scikit-learn xgboost
我不明白为什么我在贡献功能中有一个名为 BIAS 的功能。
我阅读了文档,我发现
“ 在每一列中都有特征和它们的权重。截距(偏差)特征显示在同一个表中“
但我不明白拦截偏见在这里是什么意思。
感谢您的帮助 :)
这与ELI5计算权重的方式有关。
XGBoost仅输出叶子的分数(您可以通过 看到它booster.dump_model(…, with_stats=True)),因此XGBoost解释器实现ELI5开始重建所有树中每个节点的伪叶子分数。这些伪叶子分数基本上是您在此节点级别停止树时所期望的平均叶子分数,因此所有子叶子的平均值由它们在训练集中的覆盖度加权。
该算法也适用于树的根节点,它们同样被分配了伪叶子分数。在根节点级别,此分数是您最终可能通过树的平均分数。将所有树相加,所有根节点得分的总和是您可能通过所有树(将应用 sigmoid 转换为概率的树)的平均得分。这就是ELI5放入<BIAS>.
所以你可以理解<BIAS>为模型输出的预期平均分数,基于训练集的分布。
<BIAS>如果您修改base_score参数,将会改变(例如,在不平衡的二元分类的情况下,您可以将默认值更改为0.5更接近目标速率的值,并且<BIAS>应该更接近0)。
编辑:也许这个博客的视觉解释更清楚(baseline相当于<BIAS>)https://medium.com/applied-data-science/new-r-package-the-xgboost-explainer-51dd7d1aa211
| 归档时间: |
|
| 查看次数: |
3978 次 |
| 最近记录: |