Mil*_*shi 5 machine-learning data-analysis method-missing missing-data
我有一个数据集,其中包含两个级别 Male(M) 和 Female(F) 的变量 GENDER 有很多缺失值。我如何处理缺失值?处理这些缺失值的不同方法是什么。任何帮助,将不胜感激。
有几种技术可以估计缺失值。我一直在为 Uni 的一个项目写一篇关于这种方法的论文。
我将简要解释 5 种常用的缺失数据插补技术。在下文中,我们将考虑一个数据集,其中每一行都是一个模式(或观察),每一列都是一个特征(或属性),假设我们要“修复”在第j个特征中具有缺失值的给定模式(位置)。
K-最近邻的K值可以通过交叉验证找到,可以先验设置,也可以使用经验法则值(K = 实例数的平方根)。
相异性度量实际上取决于您,但常见的选择是 HEOM(异构欧几里得重叠度量),可在此处找到(第 2.3 节)。这种差异性度量在具有大量缺失值的数据集中非常有效,因为它允许您也处理具有缺失值的模式(显然不在您要估计的特征中)。
丢弃要估算的特征中缺失值的模式确实很重要:如果您的相异性度量返回最相似的模式,该模式也是特征j 中的缺失值,则您基本上是用另一个缺失值替换缺失值。无意义。此示例适用于 Hot-decking,但您甚至可以为K扩展此类概念K-最近邻中最相似的模式(即不幸的情况,其中K 个最相似模式的第j个特征中最频繁的项目也是缺失值)。
| 归档时间: |
|
| 查看次数: |
2670 次 |
| 最近记录: |