如何使用randomForest具有观察权重的R 包?我知道这个包里没有这样的选择.我有两个问题:
使用randomForest包有没有解决这个问题的方法?此刻我正在从权重数据中抽取样本,因此我至少可以模拟它:
m = dim(data)[1]
sample(data, m, replace=TRUE, prob=weights)
Run Code Online (Sandbox Code Playgroud)
它有其他(更好的)解决方案吗?
是否有任何替代randomForest方案.我找到了party包(cforest),但它在内存管理方面很糟糕(或者我不能像使用randomForest包那样使用它).我有大约200k观测值和30-40个变量.
编辑:
很抱歉没有澄清细节.我正在使用randomForest包来回归问题(不是分类).这是一个时间序列,每个观察都有它的重量.稍后,此权重用于确定测试观察的模型性能.y变量是连续的.
randomForest确实有一个“classwt”参数,它应该允许您考虑差异采样概率,甚至差异成本。诚然,回归会忽略它也许您应该解释为什么需要使用加权以及您正在使用哪种类型的 y 变量。