我知道您可以为不平衡的数据集设置scale_pos_weight。然而,如何处理不平衡数据集中的多分类问题。我已经浏览过https://datascience.stackexchange.com/questions/16342/unbalanced-multiclass-data-with-xgboost/18823,但不太明白如何在 Dmatrix 中设置权重参数。
有人可以详细解释一下吗?
数据帧的前两行,df
:
0|50331648|{1,2,3,4,5}|6
1|50331649|{3,5,7,8}|2
Run Code Online (Sandbox Code Playgroud)
执行操作后,我只需要一个包含的集合 {1,2,3,4,5,7,8}
.
怎么实现呢?