从R中的数据集中获取不成比例的样本

Question

如果我在R中有一个大型数据集,我如何考虑原始数据的分布随机抽取数据,特别是如果数据偏斜且只有1%属于次要类并且我想采取偏见样本的数据？

Answer 1

该sample(x, n, replace = FALSE, prob = NULL)函数从x大小的向量中获取样本n.该样本可以有或没有替换,并且为样本选择每个元素的概率对于每个元素可以是相同的,或者是由用户通知的向量.

如果你想为50个案例的每个元素采集相同概率的样本,你所要做的就是

n <- 50
smpl <- df[sample(nrow(df), 50),]

但是,如果你想给被选中的元素不同的概率,让我们说,元素性是中号有概率0.25,而那些性生活是˚F有概率0.75,你应该做的

n <- 50
prb <- ifelse(sex=="M",0.25,0.75)
smpl <- df[sample(nrow(df), 50, prob = prb),]