数据分析中的缺失值

Mil*_*shi 5 machine-learning data-analysis method-missing missing-data

我有一个数据集,其中包含两个级别 Male(M) 和 Female(F) 的变量 GENDER 有很多缺失值。我如何处理缺失值?处理这些缺失值的不同方法是什么。任何帮助,将不胜感激。

Ale*_*ioX 5

有几种技术可以估计缺失值。我一直在为 Uni 的一个项目写一篇关于这种方法的论文。
我将简要解释 5 种常用的缺失数据插补技术。在下文中,我们将考虑一个数据集,其中每一行都是一个模式(或观察),每一列都是一个特征(或属性),假设我们要“修复”在第j个特征中具有缺失值的给定模式(位置)。

  • 图案去除。
    如果这种模式至少有一个缺失值,则从数据集中删除模式。
    但是,如果存在大量带有缺失值的模式,我不会建议采用这种方法,因为数据集中的模式数量将急剧减少,并且训练阶段将不会被调整。
  • 均值/模式方法。
    如果图案在位置缺少值Ĵ取均值(如果Ĵ个属性是连续的)或模式(如果Ĵ个属性是分类)的的Ĵ第柱并在图案的替代,例如平均值/模式Ĵ第位置。显然,在均值/模式评估中,您应该只考虑列j 中的非缺失值。
  • 条件均值/众数。
    如果您有标签(即监督学习),你可以考虑以前的做法,但考虑到,在平均/模式评测,只有(非缺失)从列元素Ĵ属于有非常相同的标签随着图案您正在尝试修复的模式。这实质上改进了之前的方法,因为您不考虑属于不同类的模式的值。
  • 热甲板。
    给定某个差异度量,您可以测量要修复的模式与所有其他模式之间的差异,这些模式在要估算的属性中没有缺失值(在我们的示例中为j个属性)。从最相似的模式中取出第j个特征并将其替换回您要修复的模式的第j个位置。
  • K-最近邻。
    这与 Hot-decking 类似,但不是考虑最相似的模式,您可以考虑在我们的第j个特征中没有缺失值的K 个最相似的模式。然后考虑这K个模式的第j个特征中最频繁的项目(模式)。

K-最近邻的K值可以通过交叉验证找到,可以先验设置,也可以使用经验法则值(K = 实例数的平方根)。

相异性度量实际上取决于您,但常见的选择是 HEOM(异构欧几里得重叠度量),可在此处找到(第 2.3 节)。这种差异性度量在具有大量缺失值的数据集中非常有效,因为它允许您也处理具有缺失值的模式(显然不在您要估计的特征中)。
丢弃要估算的特征中缺失值的模式确实很重要:如果您的相异性度量返回最相似的模式,该模式也是特征j 中的缺失值,则您基本上是用另一个缺失值替换缺失值。无意义。此示例适用于 Hot-decking,但您甚至可以为K扩展此类概念K-最近邻中最相似的模式(即不幸的情况,其中K 个最相似模式的第j个特征中最频繁的项目也是缺失值)。


Ami*_*ory 2

这在很大程度上取决于具体情况。然而,一些通用方法是:

  1. 删除某些数据丢失的行。

  2. 估算缺失值。基本上,您可以将性别列视为必须预测的内容(可能使用其他列)。使用具有所有值的行训练您的预测器,并预测缺失的行。

  3. 创建第三类“缺失”,并让机器学习算法来处理它。