当我尝试在比我的训练数据更少的因子水平的新测试数据上测试我训练的模型时,predict()返回以下内容:
新数据中的预测变量类型与训练数据的类型不匹配.
我的训练数据有一个具有7个因子水平的变量,我的测试数据具有6个因子水平的相同变量(训练数据中的所有6个ARE).
当我添加包含"缺失"第7个因子的观察时,模型会运行,所以我不确定为什么会发生这种情况,甚至不知道它背后的逻辑.
我可以看看测试集是否有更多/不同的因子水平,然后randomForest会窒息,但为什么在训练集有"更多"数据的情况下呢?