Scikitlearn-适合和预测输入的顺序,这有关系吗?

Sol*_*xun 3 python scikit-learn

刚开始使用该库... RandomForestClassifiers有一些问题(我已经看过文档但不清楚)

我的问题很简单,说我有一个火车数据集,例如

美国广播公司

1 2 3

其中A是自变量(y),BC是因变量(x)。假设测试集看起来相同,但是顺序是

商业咨询委员会

1 2 3

当我打电话时forest.fit(train_data[0:,1:],train_data[0:,0]) ,我是否需要在运行之前重新排序测试集以匹配此顺序?(忽略了我需要删除已经预测的y值(a)的事实,因此,只需说B和C乱序...)

ely*_*ase 5

是的,您需要重新排序。想象一个更简单的情况,线性回归。该算法将计算每个特征的权重,因此,例如,如果特征1不重要,则会为其分配接近0的权重。

如果在预测时顺序不同,则重要特征将乘以该几乎为零的权重,并且预测将完全不可用。