Kev*_*217 6 algorithm machine-learning data-mining
我已经学会了引导和分层。但是什么是分层引导?以及它如何运作?
假设我们有一个n个实例(观察)的数据集,而m是类的数量。我应该如何划分数据集,训练和测试的百分比是多少?
您按类拆分数据集。之后,您独立地从每个子群中采样。您从一个子群中采样的实例数应与其比例相关。
data
d(i) <- { x in data | class(x) =i }
for each class
for j = 0..samplesize*(size(d(i))/size(data))
sample(i) <- draw element from d(i)
sample <- U sample(i)
Run Code Online (Sandbox Code Playgroud)
如果您从具有 classes 的数据集中采样四个元素{'a', 'a', 'a', 'a', 'a', 'a', 'b', 'b'},此过程将确保至少一个 class 元素b包含在分层样本中。
| 归档时间: |
|
| 查看次数: |
2774 次 |
| 最近记录: |