bah*_*kev 5 statistics r stata
这些是关于R的统计编程的一些新手问题,我无法在网上找到答案. 我的数据框在下面的代码中标记为"eitc".
1)一旦我加载了数据框,我想查看摘要统计信息.我用过这些功能:
eitc <- read.dta(file="/Users/Documents/eitc.dta")
summary(eitc)
sapply(eitc,mean,na.rm=TRUE) #for sample mean, min, max, etc.
Run Code Online (Sandbox Code Playgroud)
如何在满足某些条件时查找数据框的摘要统计信息.例如,当变量"children"大于或等于1时,我希望看到所有变量的汇总统计信息.等效的Stata代码是:
summarize if children >= 1
Run Code Online (Sandbox Code Playgroud)
2)同样,当满足某些资格时,如何找到特定参数?例如,当"post93"变量等于零且"anykids"变量等于1时,我想找到变量"work"的平均值.等效的Stata代码是:
mean work if post93==0 & anykids==1
Run Code Online (Sandbox Code Playgroud)
3)理想情况下,当我运行上面的汇总统计时,我想知道计算中包含了多少观察值/符合标准.
4)当我读入数据框时,看到数据集中包含多少个观察结果(也许可能有多少行具有缺失值或"NA")也是很好的.
5)另外,我一直在使用以下代码创建虚拟变量.这是正确的方法还是更有效的路线?
post93.dummy <- as.numeric(eitc$year>1993)
eitc=cbind(eitc,post93.dummy)
Run Code Online (Sandbox Code Playgroud)
Mic*_*unn 11
很多您的要求被回答subset,如
summary(subset(eitc, post93 == 0 & anykids == 1, select=work))
nrow(subset(eitc, post93 == 0 & anykids == 1, select=work)) # for number of obs.
Run Code Online (Sandbox Code Playgroud)
该?subset文档具有很好的例子.
cbind附加虚拟变量的方法是不必要的.做就是了:
eitc$post93.dummy <- as.numeric(eitc$year>1993)
Run Code Online (Sandbox Code Playgroud)
我将使用包中mtcars提供的数据datasets.见?mtcars.
广告1.您可以看到mtcarswhen gear大于3 的摘要:
summary(mtcars[mtcars$gear > 3, ])
## or by using Tukey's five number summary
sapply(mtcars[mtcars$gear > 3, ], fivenum)
Run Code Online (Sandbox Code Playgroud)
广告2.使用with:
with(mtcars, mean(hp[gear > 3 & mpg > 20]))
Run Code Online (Sandbox Code Playgroud)
广告3.同上(但使用length):
with(mtcars, length(hp[gear > 3 & mpg > 20]))
## or
sapply(mtcars[mtcars$gear > 3, ], length) ## which is trivial when there are no NA's
sapply(mtcars[mtcars$gear > 3, ], length, na.rm = TRUE) ## but this one's good when there are NA's
nrow(mtcars[mtcars$gear > 3, ])
Run Code Online (Sandbox Code Playgroud)
广告4.见上一页,但要找出答案
有多少行有缺失值或"NA"
做这样的事情:
apply(dtf, 1, function(x) length(is.na(x)))
Run Code Online (Sandbox Code Playgroud)
Ad 5.这不是虚拟变量,这是原始数据的某种子集,按列连接.无论如何你想要实现什么?
请简明扼要.请问每个问题一个问题!