小编ak7*_*ak7的帖子

用grepl替换R中数据框中列名中的字符串

我有一个数据框,其中一些列以我想删除的 'dfall$PROFESSION' 开头。IE:

"dfall$PROFESSIONBusinessman"             "dfall$PROFESSIONDoctor"                 
[35] "dfall$PROFESSIONEngineer"                "dfall$PROFESSIONFarmer"                 
[37] "dfall$PROFESSIONHousewife"               "dfall$PROFESSIONLawyer"                 
[39] "dfall$PROFESSIONMissing"                 "dfall$PROFESSIONPensioner"
Run Code Online (Sandbox Code Playgroud)

所以我试过:

names(df_all) <- gsub("dfall$PROFESSION", "", names(df_all))
Run Code Online (Sandbox Code Playgroud)

但是,这不会影响任何更改。你能解释一下吗?我应该怎么做?

您的建议将不胜感激。

r gsub dataframe

4
推荐指数
1
解决办法
8249
查看次数

限制 ggplot 中箱线图中 y 轴的范围而不影响箱线图所基于的数据

我正在使用 ggplot 创建箱线图。代码如下:

ggplot(my_data, aes(x = as.factor(viotiko), y = pd_1year, fill = as.factor(viotiko))) + geom_boxplot() +
  labs(title="Does the PD differ significantly by 'Viotiko' group?",x="Viotiko Group", y = "PD (pd_1year)") 
Run Code Online (Sandbox Code Playgroud)

这将输出以下图表:

y 轴无限制的箱线图

接下来,我想关注 y 值的范围 --[0, 0.05] -- 我再次运行更改参数的代码。我并不是要排除数据并改变均值和分布,而只是关注特定范围的 y 值。代码又是这样的:

ggplot(my_data, aes(x = as.factor(viotiko), y = pd_1year, fill = as.factor(viotiko))) + geom_boxplot() +
  labs(title="Does the PD differ significantly by 'Viotiko' group?",x="Viotiko Group", y = "PD (pd_1year)") +
  scale_y_continuous(breaks =seq(0, .05, .01), limit = c(0, 0.05))
Run Code Online (Sandbox Code Playgroud)

这返回了一个警告“删除了 173664 行包含非有限值 (stat_boxplot)”。并输出如下图:

对 y 轴设置限制后的箱线图

显然, ggplot …

r limit ggplot2 boxplot

2
推荐指数
1
解决办法
4030
查看次数

ggplot不按组对直方图进行着色

我正在学习R,并且尝试创建一个包含三个组的直方图的复合直方图,这三个直方图由数据帧中“群集”列的值定义。

数据如下所示:

  TOTAL_Estimated_Collateral_value_sum cluster
1                           -0.17499342       1
2                           -0.86443362       1
3                            0.22211949       2
4                            0.01007717       1
5                           -0.77617685       2
6                           -1.43518056       1
7                           -0.19705983       1
8                           -0.39170108       1
9                           -0.94073376       1
10                           1.20525601       2

 TOTAL_Estimated_Collateral_value_sum    cluster     
 Min.   :-1.7697                      Min.   :1.000  
 1st Qu.:-0.7626                      1st Qu.:1.000  
 Median :-0.1322                      Median :1.000  
 Mean   : 0.0000                      Mean   :1.329  
 3rd Qu.: 0.8459                      3rd Qu.:2.000  
 Max.   : 1.8782                      Max.   :3.000  
> table(df_all$cluster)

    1     2     3 
24342  8565  1350
Run Code Online (Sandbox Code Playgroud)

我使用的代码如下:

ggplot(df_all, aes(x=TOTAL_Estimated_Collateral_value_sum, color=cluster)) +
  geom_histogram(alpha = 0.7, position="dodge") …
Run Code Online (Sandbox Code Playgroud)

r histogram ggplot2

1
推荐指数
1
解决办法
3181
查看次数

标签 统计

r ×3

ggplot2 ×2

boxplot ×1

dataframe ×1

gsub ×1

histogram ×1

limit ×1