我有一个回归模型,其中因变量是连续的,但百分之九十的自变量是分类的(有序和无序)和大约百分之三十的记录都有缺失值(更糟糕的是,它们随机丢失而没有任何模式,也就是说,超过百分之四十五的数据至少有一个缺失值).没有先验理论来选择模型的规范,因此关键任务之一是在运行回归之前降维.虽然我知道连续变量降维的几种方法,但我不知道有关分类数据的类似静态文献(可能除了作为对应分析的一部分,基本上是频率表上主成分分析的变化).我还要补充一点,该数据集具有200个变量的中等大小500000个观测值.我有两个问题.
python statistics r
python ×1
r ×1
statistics ×1