U2E*_*EF1 5 random algorithm math probability combinatorics
我有一组元素U(最初未知的大小),我想生成一个n << | 的随机样本 U | 元素.流采样适用于此.
当我将U细分为几个子集并采用每个子集的随机样本时(每个样本包含k <= n个元素,但通常k = n),问题就出现了.我也知道每个子集中有多少个元素.我想知道如何将这些样品(最好是一次合并两个样品)组合成一个尺寸的n样品.
或换一种说法,由于不同组甲和乙,和随机样品一和b,我想作ç ⊆ 一个 ∪ b,使得Ç是随机抽样的甲 ∪ 乙和我可以指定的大小Ç(通常| c |将与| a |)大小相同.
就好像您仍在从U进行采样一样。要选择样本,首先选择它应该来自的子集S_i 。按照相对S_i大小的比例执行此操作。因此,如果S_1是U的 20% ,则您以 20% 的概率从S_1中选择样本。选择子集后,您可以从该子集中获取任何一个样本并将其用于最终样本。如果k值小于n ,这可能会遇到问题,但如果通常k = n,这对您来说可能不会成为问题。
\n\n根据A和B公式,按如下方式构建c:概率 | 一个|/| A \xe2\x88\xaa B | 从a中获取下一个样本;有概率 | 乙|/| A \xe2\x88\xaa B | = 1 - (| A |/| A \xe2\x88\xaa B |) 从b中获取下一个样本。(正如我上面提到的,如果 | a | 不大于n * (| A |/| A \xe2\x88\xaa B |) (以及 | b |的等价物),那么这可能会遇到问题,但是如果就是这样,我不清楚您是否可以做您想做的事情。)这可以让您一次构建样本两个子集。
\n