标题说明了一切,我在生成它时订购了一个因子变量,现在我想删除顺序并将其用作无序因子变量.另一个问题是,如果我使用我的因子变量作为回归中的预测因子,如果它是有序(序数)还是简单因子变量(分类),它会对R产生影响吗?
一个或许简单的问题,我试图制作一个错误图,就像Field的"使用R发现统计数据"第532页所示.
代码可以在这里找到http://www.sagepub.com/dsur/study/DSUR%20R%20Script%20Files/Chapter%2012%20DSUR%20GLM3.R :
line <- ggplot(gogglesData, aes(alcohol, attractiveness, colour = gender))
line + stat_summary(fun.y = mean, geom = "point") +
stat_summary(fun.y = mean, geom = "line", aes(group= gender)) +
stat_summary(fun.data = mean_cl_boot, geom = "errorbar", width = 0.2) +
labs(x = "Alcohol Consumption", y = "Mean Attractiveness of Date (%)", colour = "Gender")
Run Code Online (Sandbox Code Playgroud)
我制作了相同的图表; 我的y轴变量只有4个点(它是一个离散的刻度,1-4),现在y轴有点1.5,2,2.5,其中线条变化.
问题是:这些点和图表描述了什么?我假设重要的部分是stat_summary(fun.data = mean_cl_boot, geom = "errorbar", width = 0.2)
他们对该组和那个级别(x轴)的观察数量?它们是频率吗?或者,它们的比例是多少?
我找到了这个http://docs.ggplot2.org/0.9.3/stat_summary.html,但它没有帮助我
谢谢
我想new
从一个old
大数据框(许多变量)生成一个数据框我使用该cbind.data.frame
函数,它就像这样
new <- cbind.data.frame(old$var1, old$var2, old$var3)
str(new)
'data.frame': 100 obs. of 3 variables:
$ old$var1 : num
Run Code Online (Sandbox Code Playgroud)
为什么var1仍然属于old$
?
我想使用,new$var1
但它返回object not found
.
我究竟做错了什么?
我试图把传奇的标题放在最顶层,而值是水平分布但我不能.任何提示将非常感激.
下面的代码提供了下图,但我的图表上没有空格,所以我需要这样的东西:
性别
女性男性
df1 <- data.frame(
sex = factor(c("Female","Female","Male","Male")),
time = factor(c("Lunch","Dinner","Lunch","Dinner"), levels=c("Lunch","Dinner")),
total_bill = c(13.53, 16.81, 16.24, 17.42))
lp1 <- ggplot(data=df1,
aes(x=time, y=total_bill, group=sex, shape=sex, colour=sex)) +
geom_line() +
geom_point() +
theme_bw() +
theme(
legend.direction = "horizontal",
) +
scale_color_manual(values=c("#0000CC", "#CC0000"),
name = 'Gender')
lp1
Run Code Online (Sandbox Code Playgroud)
我在因子变量中遇到 NA 问题,因为 ggplot 将它们包含在图中,就好像它们是另一个类别/级别一样。我想删除丢失的数据。很抱歉,我目前手头没有代码,我尝试从我发现的数据集中删除因子级别data()
,但没有奏效。
有人遇到同样的问题吗?
我尝试了此处建议的解决方案从 ggplot 条形图中删除未使用的因子水平,但出现错误
错误:意外符号:mycode
有人可以建议吗?
另外,如果无法从 ggplot 代码中删除它们,如何从因子变量中删除 NA?
我非常感谢您对这个问题的帮助。我有以下数据集,我想创建一个新变量,其中包含给定因子变量每个级别的标准化值(z 分布)。
x <- data.frame(gender = c("boy","boy","boy","girl","girl","girl"),
values=c(1,2,3,6,7,8))
x
gender values
1 boy 1
2 boy 2
3 boy 3
4 girl 6
5 girl 7
6 girl 8
Run Code Online (Sandbox Code Playgroud)
我的目标是创建一个新变量,其中包含为每个因子水平(男孩和女孩)单独计算的 z 值。
还有一个问题。我主要想创建一个带有 z 值的变量。如果我想应用另一个函数,例如计算每个因子水平的分位数分布,是否会类似?
感谢您的帮助!
我需要从分类(因子)变量中创建一个逻辑变量(True-False)
我决定使用:
dat$var[dat$var %in% c("option1")] <- TRUE
dat$var[dat$var %in% c("option2")] <- FALSE
Run Code Online (Sandbox Code Playgroud)
但是我在两行中都收到以下错误消息,我的整个变量是NA:
Warning message:
In `[<-.factor`(`*tmp*`, dat$var %in% c("option1"), :
invalid factor level, NA generated
Run Code Online (Sandbox Code Playgroud)
关于我可能做错的任何想法?因素水平是正确的,我复制粘贴,以确保不会有任何拼写错误.我想过将变量更改为vector,as.logical()
但这也不起作用.