Sol*_*xun 3 python scikit-learn
刚开始使用该库... RandomForestClassifiers有一些问题(我已经看过文档但不清楚)
我的问题很简单,说我有一个火车数据集,例如
美国广播公司
1 2 3
其中A是自变量(y),BC是因变量(x)。假设测试集看起来相同,但是顺序是
商业咨询委员会
1 2 3
当我打电话时forest.fit(train_data[0:,1:],train_data[0:,0])
,我是否需要在运行之前重新排序测试集以匹配此顺序?(忽略了我需要删除已经预测的y值(a)的事实,因此,只需说B和C乱序...)
是的,您需要重新排序。想象一个更简单的情况,线性回归。该算法将计算每个特征的权重,因此,例如,如果特征1不重要,则会为其分配接近0的权重。
如果在预测时顺序不同,则重要特征将乘以该几乎为零的权重,并且预测将完全不可用。
| 归档时间: |
|
| 查看次数: |
933 次 |
| 最近记录: |