我正在尝试使用随机森林。训练数据有 7000 个观察值和 12 个变量。这些变量包括分类变量和连续变量。当我提交代码时,我收到以下信息
warning:警告消息:在 randomForest.default(m, y, ...) 中:响应具有五个或更少的唯一值。您确定要进行回归吗?
数据的结构如下:
CustomerId CreditScore Geography Gender Age Tenure Balance NumOfProducts HasCrCard IsActiveMember EstimatedSalary Exited
15634602 619 France Female 42 2 0 1 1 1 101348.88 1
15647311 608 Spain Female 41 1 83807.86 1 0 1 112542.58 0
15619304 502 France Female 42 8 159660.8 3 1 0 113931.57 1
15701354 699 France Female 39 1 0 2 0 0 93826.63 0
15737888 850 Spain Female 43 2 125510.82 1 1 1 79084.1 0
15574012 645 Spain Male 44 8 113755.78 2 1 0 149756.71 1
15592531 822 France Male 50 7 0 2 1 1 10062.8 0
15656148 376 Germany Female 29 4 115046.74 4 1 0 119346.88 1
15792365 501 France Male 44 4 142051.07 2 0 1 74940.5 0
Run Code Online (Sandbox Code Playgroud)
根据研究,我尝试将变量更改为因素,但这并没有解决问题。
我使用的随机森林模型代码如下:
rfModel=randomForest(Exited~.,data=train)
Run Code Online (Sandbox Code Playgroud)
到目前为止,我一直无法超越警告。