相关疑难解决方法(0)

具有缺失值的分类数据中的维度减少

我有一个回归模型,其中因变量是连续的,但百分之九十的自变量是分类的(有序和无序)和大约百分之三十的记录都有缺失值(更糟糕的是,它们随机丢失而没有任何模式,也就是说,超过百分之四十五的数据至少有一个缺失值).没有先验理论来选择模型的规范,因此关键任务之一是在运行回归之前降维.虽然我知道连续变量降维的几种方法,但我不知道有关分类数据的类似静态文献(可能除了作为对应分析的一部分,基本上是频率表上主成分分析的变化).我还要补充一点,该数据集具有200个变量的中等大小500000个观测值.我有两个问题.

  1. 是否有一个很好的统计参考,用于分类数据的降维以及强大的插补(我认为第一个问题是插补然后降维)?
  2. 这与上述问题的实施有关.我之前已广泛使用过R,并且倾向于对连续变量使用transcan和impute函数,并使用树方法的变体来估算分类值.我有一个Python的工作知识,所以如果有一个很好的目的,那么我将使用它.python或R中的任何实现指针都会有很大的帮助.谢谢.

python statistics r

22
推荐指数
1
解决办法
1万
查看次数

标签 统计

python ×1

r ×1

statistics ×1