Nuk*_*ist 5 python regression machine-learning decision-tree python-3.x
我正在使用 Scikit Learn 的决策树对数据集进行回归。我得到了非常好的结果,但我担心的一个问题是许多功能的相对不确定性非常高。
我曾尝试删除具有高不确定性的案例,但这会显着降低模型的性能。
特征本身是通过实验确定的,因此它们具有相关的实验不确定性。数据本身并不嘈杂。
所以我的问题是,是否有一种将与特征相关的不确定性纳入机器学习算法的好方法?
感谢所有的帮助!
如果不确定的特征正在改进算法,那么表明它们在一起是有用的。然而,其中一些可能并非如此。我的建议是去掉那些不会改进算法的功能。您可以使用贪婪的特征消除算法。
http://scikit-learn.org/stable/modules/ generated/sklearn.feature_selection.RFE.html
首先根据模型中的所有特征训练模型,然后删除被认为最无用的特征。它再次训练模型,但少了一项特征。
希望有帮助
| 归档时间: |
|
| 查看次数: |
458 次 |
| 最近记录: |