Nei*_*gan 39
拿一个周六醒来的时间样本.有些星期五晚上你喝了太多酒,所以你早起(但回去睡觉).其他几天你在正常时间醒来.你入睡的其他日子.
结果如下:
[3.1,4.8,6.3,6.4,6.6,7.3,7.5,7.7,7.9,10.1]
你醒来的平均时间是多少?
那么它是6.8(或6:48).早点给我一点触动.
当你下周六醒来的时候预测有多好?你能量一下你的错误吗?
这是一个非常小的样本,我们不确定底层过程的分布,因此使用标准参数统计技术†可能不是一个好主意.
为什么我们不随机抽取样本,计算均值并重复这个?这将使我们估计我们的估计有多糟糕.
我这样做了几次,平均值在5.98到7.8之间
这被称为引导程序,它最早是由Bradley Efron在1979年提到的.
一种变体称为折刀,您可以在其中对除了一个数据集之外的所有数据集进行采样,取均值并重复.折刀平均值为6.8(与算术平均值相同),范围从6.4到7.2.
另一种变体称为k折交叉验证,您可以(随机)将数据集拆分为k个大小相等的部分,计算除一个部分以外的所有部分的平均值,并重复k次.5倍交叉验证平均值为6.8,范围为4到9.
†这种分布恰好是正常的.平均值的95%置信区间为5.43至8.11,相当接近但大于自助均值.
| 归档时间: |
|
| 查看次数: |
22715 次 |
| 最近记录: |