XGBoost 中的特征重要性“增益”

Question

XGBoost 中的特征重要性“增益”

nel*_*lng 5 python scikit-learn boosting xgboost information-gain

我想了解 xgboost 中的特征重要性是如何通过“增益”计算的。从https://towardsdatascience.com/be-careful-when-interpreting-your-features-importance-in-xgboost-6e16132588e7：

“增益”是特征为其所在分支带来的准确性的提高。这个想法是在一个特征X上添加一个新的分裂到分支之前有一些错误分类的元素，在这个特征上添加分裂后，有两个新分支，每个分支都更准确（一个分支说如果你的观察是在这个分支上，那么它应该被归类为 1，而另一个分支则正好相反）。

在 scikit-learn 中，特征重要性是通过使用变量分裂后每个节点的基尼杂质/信息增益减少来计算的，即节点的加权杂质平均值 - 左子节点的加权杂质平均值 - 右子节点的加权杂质平均值（参见还有：https : //stats.stackexchange.com/questions/162162/relative-variable-importance-for-boosting）

我想知道 xgboost 是否也使用上述引文中所述的使用信息增益或准确性的方法。我试着挖了xgboost的代码，发现了这个方法（已经把不相关的部分剪掉了）：

def get_score(self, fmap='', importance_type='gain'):
    trees = self.get_dump(fmap, with_stats=True)

    importance_type += '='
    fmap = {}
    gmap = {}
    for tree in trees:
        for line in tree.split('\n'):
            # look for the opening square bracket
            arr = line.split('[')
            # if no opening bracket (leaf node), ignore this line
            if len(arr) == 1:
                continue

            # look for the closing bracket, extract only info within that bracket
            fid = arr[1].split(']')

            # extract gain or cover from string after closing bracket
            g = float(fid[1].split(importance_type)[1].split(',')[0])

            # extract feature name from string before closing bracket
            fid = fid[0].split('<')[0]

            if fid not in fmap:
                # if the feature hasn't been seen yet
                fmap[fid] = 1
                gmap[fid] = g
            else:
                fmap[fid] += 1
                gmap[fid] += g

    return gmap

Run Code Online (Sandbox Code Playgroud)

所以“增益”是从每个助推器的转储文件中提取的，但它实际上是如何测量的？

Answer 1

mak*_*kis 5

好问题。使用以下等式计算增益：

如需深入解释，请阅读：https : //xgboost.readthedocs.io/en/latest/tutorials/model.html

归档时间：	6 年，7 月前
查看次数：	5857 次
最近记录：	6 年，7 月前