小编Sab*_*ian的帖子

使用rpart决策树进行数据预测

我使用R来分类一个名为'd'的数据框,其中包含如下结构的数据:

初始数据集

数据有576666行,"classLabel"列有3个等级:ONE,TWO,THREE.

我正在使用rpart制作决策树:

fitTree = rpart(d$classLabel ~ d$tripduration + d$from_station_id + d$gender +  d$birthday)
Run Code Online (Sandbox Code Playgroud)

我想预测"classLabel"的值newdata:

newdata = data.frame( tripduration=c(345,244,543,311), 
                      from_station_id=c(60,28,100,56),
                      gender=c("Male","Female","Male","Male"),  
                      birthday=c(1972,1955,1964,1967) )

 p <- predict(fitTree, newdata)
Run Code Online (Sandbox Code Playgroud)

我希望我的结果是一个4行的矩阵,每个行的概率为"classLabel"的三个可能值newdata.但是我得到的结果是p,是一个576666行的数据帧,如下所示:

在此输入图像描述

运行该predict函数时,我也收到以下警告:

Warning message:
'newdata' had 4 rows but variables found have 576666 rows 
Run Code Online (Sandbox Code Playgroud)

我哪里做错了?!

r classification machine-learning decision-tree rpart

6
推荐指数
1
解决办法
2万
查看次数

从大型C库中创建子集

我在我的C应用程序中使用了GSL库的一些函数.这个库很大,有很多功能和设施,我只想要它们中的一小部分.我的问题是我想在一个小型嵌入式系统上使用我的应用程序,并使用这个大型库使我的编译应用程序如此之大.

是否有任何设施可以从这些大型库中提取特定的函数和文件子集?

谢谢大家,

c embedded gsl

5
推荐指数
1
解决办法
391
查看次数

获得R中随机森林的准确性

我创建了一个random forest我的数据:

fit=randomForest(churn~., data=data_churn[3:17], ntree=1,
                 importance=TRUE, proximity=TRUE)
Run Code Online (Sandbox Code Playgroud)

我很容易看到我confusion matrix:

conf <- fit$confusion
> conf
     No Yes class.error
No  945  80  0.07804878
Yes  84 101  0.45405405
Run Code Online (Sandbox Code Playgroud)

现在我需要知道随机森林的准确性.我四处搜索并意识到插入符号库有一个confusionMatrix方法可以获得混淆矩阵并返回准确性(以及许多其他值).但是,该方法需要另一个名为的参数"reference".我的问题是如何为获取随机森林的准确性的方法提供参考?并且...它是获得随机森林准确性的正确方法吗?

r confusion-matrix random-forest

5
推荐指数
1
解决办法
2万
查看次数