我们知道prob
参数 insample
用于分配权重的概率。
例如,
table(sample(1:4, 1e6, replace = TRUE, prob = c(0.2, 0.4, 0.3, 0.1)))/1e6
# 1 2 3 4
#0.2 0.4 0.3 0.1
table(sample(1:4, 1e6, replace = TRUE, prob = c(0.2, 0.4, 0.3, 0.1)))/1e6
# 1 2 3 4
#0.200 0.400 0.299 0.100
Run Code Online (Sandbox Code Playgroud)
在这个例子中,概率之和正好是 1 (0.2 + 0.4 + 0.3 + 0.1),因此它给出了预期的比率,但如果概率之和不为 1 呢?它会给出什么输出?我认为这会导致错误,但它提供了一些价值。
当概率总和大于 1 时。
table(sample(1:4, 1e6, replace = TRUE, prob = c(0.2, 0.5, 0.5, 0.1)))/1e6
# 1 2 3 4
#0.1544 0.3839 0.3848 0.0768
table(sample(1:4, 1e6, replace = TRUE, prob = c(0.2, 0.5, 0.5, 0.1)))/1e6
# 1 2 3 4
#0.1544 0.3842 0.3848 0.0767
Run Code Online (Sandbox Code Playgroud)
当概率总和小于 1 时
table(sample(1:4, 1e6, replace = TRUE, prob = c(0.1, 0.1, 0.5, 0.1)))/1e6
# 1 2 3 4
#0.124 0.125 0.625 0.125
table(sample(1:4, 1e6, replace = TRUE, prob = c(0.1, 0.1, 0.5, 0.1)))/1e6
# 1 2 3 4
#0.125 0.125 0.625 0.125
Run Code Online (Sandbox Code Playgroud)
正如我们所看到的,多次运行会给出不等于的输出,prob
但结果也不是随机的。在这种情况下,数字是如何分布的?它在哪里记录?
我尝试在互联网上搜索,但没有找到任何相关信息。我查看了文档,?sample
其中有
可选的 prob 参数可用于给出权重向量,以获取被采样向量的元素。它们的总和不必为 1,但它们应该是非负数且不能全为零。如果 replace 为真,则当存在超过 200 个合理可能的值时使用 Walker 的别名方法 (Ripley, 1987):这会产生与来自 R < 2.2.0 的结果不兼容的结果。
所以它说这个prob
论点不需要总和为 1,但没有说明当它总和不为 1 时预期是什么?我不确定我是否遗漏了文档的任何部分。有人有任何想法吗?
All*_*ron 11
好问题。文档对此不清楚,但可以通过查看源代码来回答这个问题。
如果您查看 R 代码,sample
总是调用另一个 R 函数,sample.int
如果您将单个数字传递x
给sample
,它将sample.int
用于创建小于或等于该数字的整数向量,而如果x
是向量,则用于sample.int
生成小于或等于 的整数样本length(x)
,然后使用它对 x 进行子集化。
现在,如果您检查函数sample.int
,它看起来像这样:
function (n, size = n, replace = FALSE, prob = NULL, useHash = (!replace &&
is.null(prob) && size <= n/2 && n > 1e+07))
{
if (useHash)
.Internal(sample2(n, size))
else .Internal(sample(n, size, replace, prob))
}
Run Code Online (Sandbox Code Playgroud)
这.Internal
意味着任何采样都是通过调用用 C 编写的编译代码完成的:在这种情况下,它是函数do_sample
,在 src/main/random.c 中定义。
如果您查看此 C 代码,请do_sample
检查它是否已传递prob
向量。如果不是,则在相等权重的假设下进行采样。如果prob
存在,该函数确保它是数字而不是 NA。如果prob
通过这些检查,则会生成一个指向底层双精度数组的指针,并将其传递给 random.c 中另一个名为 的函数,在此处FixUpProbs
定义。
此函数检查 的每个成员prob
并在 的任何元素prob
不是正有限双精度时抛出错误。然后它通过将每个数字除以所有数字的总和来标准化这些数字。因此prob
,对于代码中固有的总和为 1,根本没有偏好。也就是说,即使prob
输入中的总和为 1,该函数仍会计算总和并将每个数字除以它。
因此,该参数命名不当。正如这里的其他人指出的那样,它应该是“权重”。公平地说,文档只说prob
应该是权重向量,而不是绝对概率。
所以prob
我阅读代码的参数的行为应该是:
prob
可以完全不存在,在这种情况下,采样默认为相等的权重。prob
数字小于零,或者是无限的,或者 NA,函数将抛出。prob
值是非数字的,则应该抛出错误,因为它们将被解释为NA
传递给 C 代码的 SEXP。prob
必须x
与 C 代码抛出的长度相同prob
如果您指定了replace=T
,您可以将零概率作为 的一个或多个元素传递,只要您至少有一个非零概率。replace=F
,则请求的样本数必须小于或等于 中的非零元素数prob
。本质上,FixUpProbs
如果您要求它以零概率进行采样,则会抛出。prob
向量将归一化为总和为 1 并用作采样权重。作为这种行为的一个有趣的副作用,如果您通过设置 probs = 在 2 个备选方案之间进行选择,则这允许您使用赔率而不是概率 c(1, odds)
如前所述,权重被归一化为总和为 1,可以证明:
> x/sum(x)
[1] 0.15384615 0.38461538 0.38461538 0.07692308
Run Code Online (Sandbox Code Playgroud)
这与您的模拟表格数据相匹配:
# 1 2 3 4
#0.1544 0.3839 0.3848 0.0768
Run Code Online (Sandbox Code Playgroud)