小编ale*_*ph4的帖子

使用stat_summary的标准误差条

以下代码使用Hmisc,ddply和ggplot生成带有标准误差条的条形图:

means_se <- ddply(mtcars,.(cyl),
                  function(df) smean.sdl(df$qsec,mult=sqrt(length(df$qsec))^-1))
colnames(means_se) <- c("cyl","mean","lower","upper")
ggplot(means_se,aes(cyl,mean,ymax=upper,ymin=lower,group=1)) + 
  geom_bar(stat="identity") +  
  geom_errorbar()
Run Code Online (Sandbox Code Playgroud)

但是,使用诸如mean_sdl之类的辅助函数实现上述功能似乎要好得多.例如,以下代码生成具有95%CI错误条的图:

ggplot(mtcars, aes(cyl, qsec)) + 
  stat_summary(fun.y = mean, geom = "bar") + 
  stat_summary(fun.data = mean_sdl, geom = "errorbar")
Run Code Online (Sandbox Code Playgroud)

我的问题是如何使用stat_summary实现标准误差条.问题是要计算SE,你需要每个条件的观测数量,这必须在mean_sdl的乘数中访问.

如何在ggplot中访问此信息?对此有一个简洁的非hacky解决方案吗?

r ggplot2 plyr

20
推荐指数
1
解决办法
4万
查看次数

如何在重塑中使用"cast"而不进行聚合

在我看过的许多使用中,使用了诸如mean之类的聚合函数.

如果你只想重塑而不丢失信息怎么样?例如,如果我想采用这种长格式:

ID     condition    Value
John   a            2
John   a            3
John   b            4
John   b            5
John   a            6
John   a            2
John   b            1
John   b            4
Run Code Online (Sandbox Code Playgroud)

对于这种宽格式而没有任何聚合:

ID    a  b
John  2  4
John  3  5
Alex  6  1
Alex  2  4
Run Code Online (Sandbox Code Playgroud)

我认为这是假设观察结果是对的,你错过了价值会搞砸了,但任何见解都会受到赞赏

r reshape reshape2

6
推荐指数
1
解决办法
3203
查看次数

如何使用cross_val_score从GridSearch获取best_estimator参数?

为了方便起见,当我使用cross_val_score的嵌套交叉验证时,我想知道GridSearch的结果.

使用cross_val_score时,您会得到一系列分数.接收拟合的估计器或该估计器的所选参数的摘要将是有用的.

我知道你可以自己做,但只是手动实现交叉验证,但如果它可以与cross_val_score一起完成则更方便.

有什么方法可以做或者这是一个建议的功能?

scikit-learn

6
推荐指数
1
解决办法
4038
查看次数

掩码基于索引的numpy数组

如何根据实际索引值屏蔽数组?

也就是说,如果我有一个10 x 10 x 30的矩阵,我想在第一个和第二个索引相等时屏蔽数组.

例如,[1, 1 , :] 应该屏蔽,因为1和1相等,但[1, 2, :]不应该,因为它们不相同.

我只是问第三个维度,因为它类似于我当前的问题,可能会使事情复杂化.但我的主要问题是,如何根据索引的值掩盖数组?

python arrays numpy

6
推荐指数
1
解决办法
3490
查看次数

标签 统计

r ×2

arrays ×1

ggplot2 ×1

numpy ×1

plyr ×1

python ×1

reshape ×1

reshape2 ×1

scikit-learn ×1