什么是数据挖掘中的自举数据？

Question

最近我遇到了这个术语,但我真的不知道它指的是什么.我在线搜索,但收益甚微.谢谢.

Answer 1

拿一个周六醒来的时间样本.有些星期五晚上你喝了太多酒,所以你早起(但回去睡觉).其他几天你在正常时间醒来.你入睡的其他日子.

结果如下:

[3.1,4.8,6.3,6.4,6.6,7.3,7.5,7.7,7.9,10.1]

你醒来的平均时间是多少？

那么它是6.8(或6:48).早点给我一点触动.

当你下周六醒来的时候预测有多好？你能量一下你的错误吗？

这是一个非常小的样本,我们不确定底层过程的分布,因此使用标准参数统计技术†可能不是一个好主意.

为什么我们不随机抽取样本,计算均值并重复这个？这将使我们估计我们的估计有多糟糕.

我这样做了几次,平均值在5.98到7.8之间

这被称为引导程序,它最早是由Bradley Efron在1979年提到的.

一种变体称为折刀,您可以在其中对除了一个数据集之外的所有数据集进行采样,取均值并重复.折刀平均值为6.8(与算术平均值相同),范围从6.4到7.2.

另一种变体称为k折交叉验证,您可以(随机)将数据集拆分为k个大小相等的部分,计算除一个部分以外的所有部分的平均值,并重复k次.5倍交叉验证平均值为6.8,范围为4到9.

†这种分布恰好是正常的.平均值的95%置信区间为5.43至8.11,相当接近但大于自助均值.

Answer 2

如果您没有足够的数据来训练您的算法,您可以通过(统一)随机选择项目并复制它们(替换)来增加训练集的大小.