具有缺失值的分类数据中的维度减少

use*_*290 22 python statistics r

我有一个回归模型,其中因变量是连续的,但百分之九十的自变量是分类的(有序和无序)和大约百分之三十的记录都有缺失值(更糟糕的是,它们随机丢失而没有任何模式,也就是说,超过百分之四十五的数据至少有一个缺失值).没有先验理论来选择模型的规范,因此关键任务之一是在运行回归之前降维.虽然我知道连续变量降维的几种方法,但我不知道有关分类数据的类似静态文献(可能除了作为对应分析的一部分,基本上是频率表上主成分分析的变化).我还要补充一点,该数据集具有200个变量的中等大小500000个观测值.我有两个问题.

  1. 是否有一个很好的统计参考,用于分类数据的降维以及强大的插补(我认为第一个问题是插补然后降维)?
  2. 这与上述问题的实施有关.我之前已广泛使用过R,并且倾向于对连续变量使用transcan和impute函数,并使用树方法的变体来估算分类值.我有一个Python的工作知识,所以如果有一个很好的目的,那么我将使用它.python或R中的任何实现指针都会有很大的帮助.谢谢.

Geo*_*tas 20

关于分类数据的估算,我建议检查鼠标包.另请参阅此演示文稿,该演示文稿解释了它如何影响多变量分类数据.不完全多元数据的多重插补的另一个包是Amelia.Amelia包括处理序数和名义变量的有限能力.

至于分类数据的降维(即将变量排列成均匀聚类的方法),我建议使用多重对应分析方法,它将为您提供最大化聚类同质性的潜在变量.与主成分分析(PCA)和因子分析相似,MCA解决方案也可以旋转,以提高组件的简单性.轮换背后的想法是找到与旋转的组件更清楚地重合的变量子集.这意味着最大化组件简单性有助于因子解释和变量聚类.在R MCA中,方法包括在包ade4,MASS,FactoMineRca(至少)中.对于FactoMineR,如果将其作为额外菜单添加到Rcmdr包已经提出的菜单中,则可以通过图形界面使用它,安装RcmdrPlugin.FactoMineR