我有一个数据框,其中一些列以我想删除的 'dfall$PROFESSION' 开头。IE:
"dfall$PROFESSIONBusinessman" "dfall$PROFESSIONDoctor"
[35] "dfall$PROFESSIONEngineer" "dfall$PROFESSIONFarmer"
[37] "dfall$PROFESSIONHousewife" "dfall$PROFESSIONLawyer"
[39] "dfall$PROFESSIONMissing" "dfall$PROFESSIONPensioner"
Run Code Online (Sandbox Code Playgroud)
所以我试过:
names(df_all) <- gsub("dfall$PROFESSION", "", names(df_all))
Run Code Online (Sandbox Code Playgroud)
但是,这不会影响任何更改。你能解释一下吗?我应该怎么做?
您的建议将不胜感激。
我正在使用 ggplot 创建箱线图。代码如下:
ggplot(my_data, aes(x = as.factor(viotiko), y = pd_1year, fill = as.factor(viotiko))) + geom_boxplot() +
labs(title="Does the PD differ significantly by 'Viotiko' group?",x="Viotiko Group", y = "PD (pd_1year)")
Run Code Online (Sandbox Code Playgroud)
这将输出以下图表:
接下来,我想关注 y 值的范围 --[0, 0.05] -- 我再次运行更改参数的代码。我并不是要排除数据并改变均值和分布,而只是关注特定范围的 y 值。代码又是这样的:
ggplot(my_data, aes(x = as.factor(viotiko), y = pd_1year, fill = as.factor(viotiko))) + geom_boxplot() +
labs(title="Does the PD differ significantly by 'Viotiko' group?",x="Viotiko Group", y = "PD (pd_1year)") +
scale_y_continuous(breaks =seq(0, .05, .01), limit = c(0, 0.05))
Run Code Online (Sandbox Code Playgroud)
这返回了一个警告“删除了 173664 行包含非有限值 (stat_boxplot)”。并输出如下图:
显然, ggplot …
我正在学习R,并且尝试创建一个包含三个组的直方图的复合直方图,这三个直方图由数据帧中“群集”列的值定义。
数据如下所示:
TOTAL_Estimated_Collateral_value_sum cluster
1 -0.17499342 1
2 -0.86443362 1
3 0.22211949 2
4 0.01007717 1
5 -0.77617685 2
6 -1.43518056 1
7 -0.19705983 1
8 -0.39170108 1
9 -0.94073376 1
10 1.20525601 2
TOTAL_Estimated_Collateral_value_sum cluster
Min. :-1.7697 Min. :1.000
1st Qu.:-0.7626 1st Qu.:1.000
Median :-0.1322 Median :1.000
Mean : 0.0000 Mean :1.329
3rd Qu.: 0.8459 3rd Qu.:2.000
Max. : 1.8782 Max. :3.000
> table(df_all$cluster)
1 2 3
24342 8565 1350
Run Code Online (Sandbox Code Playgroud)
我使用的代码如下:
ggplot(df_all, aes(x=TOTAL_Estimated_Collateral_value_sum, color=cluster)) +
geom_histogram(alpha = 0.7, position="dodge") …Run Code Online (Sandbox Code Playgroud)