在R中选择随机数据点

Hos*_*ser 1 r random-sample

我有一个大数据集,我想创建3个随机选择(大小= 50)的原始数据集的子集.我只是想从特定列中提取点数(第13列是具体的).

这在R中很容易做到,我应该怎么做呢?

Rei*_*son 6

replicate(3, sample(200, 50))
Run Code Online (Sandbox Code Playgroud)

200数据框中的行数在哪里(相应地调整).假设数据在对象中,则更自动化df

replicate(3, sample(nrow(df), 50))
Run Code Online (Sandbox Code Playgroud)

这是一个例子

set.seed(10)
df <- data.frame(x1 = rnorm(1000), x2 = rnorm(1000))

ind <- replicate(3, sample(nrow(df), 50))
head(ind)

> head(ind)
     [,1] [,2] [,3]
[1,]  380  220  702
[2,]   75  751  720
[3,]  775  278  153
[4,]  988  612  340
[5,]  282  568  925
[6,]  266  794  812
Run Code Online (Sandbox Code Playgroud)

列包含您想要的3个子集.然后,您可以使用它来索引原始数据框,例如

df[ind[,1], "x2"]

> df[ind[,1], "x2"]
 [1]  0.57982435  0.27016645 -0.08435526  1.16768142  1.38124150  0.62444167
 [7] -0.54887437  1.91301831  1.84116197  0.94045377 -1.15417235 -0.06809104
[13] -2.03652525  1.06773801 -0.34235315 -0.24707548 -1.80470122  0.11993674
[19] -0.36358182  0.16819156 -1.84507669 -0.16707925 -1.80789383  0.78894210
[25] -0.05741295 -0.28905260  2.38724835  2.75762831 -0.18082554  1.61820620
[31] -0.48192569 -0.03298339  0.52087746  0.32774925  1.52103207 -0.15619668
[37] -0.49687983 -0.06623606  2.21855213 -0.48727519  1.01115806  0.25213485
[43]  1.01927105  0.31362619  0.40260968  0.26795767  0.01803656  0.19579576
[49] -0.26464131  0.48141105
Run Code Online (Sandbox Code Playgroud)

其中我采取第一个子集,只有变量x2.

请注意,这假设您想要在不更换的情况下进行采样 换句话说,每一行只能在一个子集中df出现0或1次,而不是多次.如果你想要后者,请参阅中的参数.replace?sample