sim*_*yme 12 random r sampling
如果我在R中有一个大型数据集,我如何考虑原始数据的分布随机抽取数据,特别是如果数据偏斜且只有1%属于次要类并且我想采取偏见样本的数据?
Joã*_*iel 20
该sample(x, n, replace = FALSE, prob = NULL)函数从x大小的向量中获取样本n.该样本可以有或没有替换,并且为样本选择每个元素的概率对于每个元素可以是相同的,或者是由用户通知的向量.
如果你想为50个案例的每个元素采集相同概率的样本,你所要做的就是
n <- 50
smpl <- df[sample(nrow(df), 50),]
Run Code Online (Sandbox Code Playgroud)
但是,如果你想给被选中的元素不同的概率,让我们说,元素性是中号有概率0.25,而那些性生活是˚F有概率0.75,你应该做的
n <- 50
prb <- ifelse(sex=="M",0.25,0.75)
smpl <- df[sample(nrow(df), 50, prob = prb),]
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
39011 次 |
| 最近记录: |