如何在测试集上估算缺失值?

Rui*_*Niu 1 missing-data data-science

我现在正在处理丢失的数据。我的测试和训练集中缺少数据。我对如何处理测试集中缺失的数据感到有些困惑。如果我使用“均值”方法进行插补,如果我想插补测试集中的缺失值,我应该使用从训练集或测试集计算的均值。感谢你们对我的帮助!

Mat*_*ava 5

一般来说,你不应该从测试集中计算均值或其他任何东西(考虑测试集的最佳方式是它根本不存在,至少在你已经训练你的模型之前)。

构建一个转换管道,可以处理训练集上所有必要的预处理步骤(估算缺失数据、标准化、执行所需的特征工程、降维...)以及当新的观察出现时(我们应该将测试集视为新的观察)在训练期间不可用)将此管道转换应用于新数据。