我正在处理涉及100多个特征的大型数据集(这些特征都是相关的,因为它们已被过滤;原始数据集具有500多个特征).我通过插入符包中的train()函数并使用"ranger"方法创建了一个随机森林模型.
这是一个问题:如何按重要性提取所有变量,而不是仅排在前20个最重要的变量?varImp()函数默认只生成前20个变量.
这是一些示例代码(减去训练集,非常大):
library(caret)
rforest_model <- train(target_variable ~ .,
data = train_data_set,
method = "ranger",
importance = "impurity)
Run Code Online (Sandbox Code Playgroud)
这是提取变量重要性的代码:
varImp(rforest_model)
Run Code Online (Sandbox Code Playgroud)