use*_*290 22 python statistics r
我有一个回归模型,其中因变量是连续的,但百分之九十的自变量是分类的(有序和无序)和大约百分之三十的记录都有缺失值(更糟糕的是,它们随机丢失而没有任何模式,也就是说,超过百分之四十五的数据至少有一个缺失值).没有先验理论来选择模型的规范,因此关键任务之一是在运行回归之前降维.虽然我知道连续变量降维的几种方法,但我不知道有关分类数据的类似静态文献(可能除了作为对应分析的一部分,基本上是频率表上主成分分析的变化).我还要补充一点,该数据集具有200个变量的中等大小500000个观测值.我有两个问题.
Geo*_*tas 20
关于分类数据的估算,我建议检查鼠标包.另请参阅此演示文稿,该演示文稿解释了它如何影响多变量分类数据.不完全多元数据的多重插补的另一个包是Amelia.Amelia包括处理序数和名义变量的有限能力.
至于分类数据的降维(即将变量排列成均匀聚类的方法),我建议使用多重对应分析方法,它将为您提供最大化聚类同质性的潜在变量.与主成分分析(PCA)和因子分析相似,MCA解决方案也可以旋转,以提高组件的简单性.轮换背后的想法是找到与旋转的组件更清楚地重合的变量子集.这意味着最大化组件简单性有助于因子解释和变量聚类.在R MCA中,方法包括在包ade4,MASS,FactoMineR和ca(至少)中.对于FactoMineR,如果将其作为额外菜单添加到Rcmdr包已经提出的菜单中,则可以通过图形界面使用它,安装RcmdrPlugin.FactoMineR