san*_*ity 6 statistics measurement probability
我正在评估许多不同的算法,其工作是预测事件发生的概率.
我正在测试大型数据集上的算法.我使用"均方根误差"来衡量它们的有效性,它是((误差之和)平方的平方根).误差是预测概率(0和1之间的浮点值)与实际结果(0.0或1.0)之间的差异.
所以我知道RMSE,以及测试算法的样本数量.
问题是有时RMSE值彼此非常接近,我需要一种方法来确定它们之间的差异是偶然的,还是它代表了性能的实际差异.
理想情况下,对于一对给定的RMSE值,我想知道一个实际上比另一个更好的概率是什么,因此我可以将此概率用作显着性阈值.
Tri*_*tan 10
MSE是平均值,因此适用中心极限定理.因此,测试两个MSE是否相同与测试两个均值是否相同是相同的.与比较两种方法的标准测试相比,一个难点是您的样本是相关的 - 两者都来自相同的事件.但MSE的差异与差分平方误差的平均值相同(均值是线性的).这表明计算单样本t检验如下:
x计算e过程1和2 的错误.(e2^2-e1^2).mean/(sd/sqrt(n)).|t|>1.96.RMSE是MSE的单调变换,因此该测试不应给出实质上不同的结果.但要注意不要假设MRSE是RMSE.
更大的担忧应该是过度拟合.确保使用您未用于估算模型的数据计算所有MSE统计数据.
你正在进入一个广阔而有争议的领域,不仅涉及计算,还涉及哲学。显着性检验和模型选择是贝叶斯主义者和频率主义者之间存在严重分歧的主题。特里斯顿关于将数据集分为训练集和验证集的评论不会让贝叶斯主义者满意。
我可以建议 RMSE 不是一个合适的概率分数。如果样本是独立的,则正确的分数是分配给实际结果的概率的对数之和。(如果它们不是独立的,那么你的手上就会一片混乱。)我所描述的是对“插件”模型进行评分。正确的贝叶斯建模需要对模型参数进行积分,这在计算上极其困难。调节插件模型的贝叶斯方法是对不太可能的(大)模型参数的分数添加惩罚。这就是所谓的“重量衰减”。
我开始阅读Christopher Bishop 的《用于模式识别的神经网络》,开始我的发现之路。我使用它和Gill等人的实用优化来编写对我来说非常有效的软件。