Rui*_*Niu 1 missing-data data-science
我现在正在处理丢失的数据。我的测试和训练集中缺少数据。我对如何处理测试集中缺失的数据感到有些困惑。如果我使用“均值”方法进行插补,如果我想插补测试集中的缺失值,我应该使用从训练集或测试集计算的均值。感谢你们对我的帮助!
一般来说,你不应该从测试集中计算均值或其他任何东西(考虑测试集的最佳方式是它根本不存在,至少在你已经训练你的模型之前)。
构建一个转换管道,可以处理训练集上所有必要的预处理步骤(估算缺失数据、标准化、执行所需的特征工程、降维...)以及当新的观察出现时(我们应该将测试集视为新的观察)在训练期间不可用)将此管道转换应用于新数据。
| 归档时间: |
|
| 查看次数: |
2013 次 |
| 最近记录: |