什么是分层引导程序?

Kev*_*217 6 algorithm machine-learning data-mining

我已经学会了引导和分层。但是什么是分层引导?以及它如何运作?

假设我们有一个n个实例(观察)的数据集,而m是类的数量。我应该如何划分数据集,训练和测试的百分比是多少?

CAF*_*ABE 7

您按类拆分数据集。之后,您独立地从每个子群中采样。您从一个子群中采样的实例数应与其比例相关。

 data
 d(i) <- { x in data | class(x) =i }
 for each class
    for j = 0..samplesize*(size(d(i))/size(data))
       sample(i) <- draw element from d(i)
 sample <- U sample(i)
Run Code Online (Sandbox Code Playgroud)

如果您从具有 classes 的数据集中采样四个元素{'a', 'a', 'a', 'a', 'a', 'a', 'b', 'b'},此过程将确保至少一个 class 元素b包含在分层样本中。