我正在研究如何使用多重插补结果。以下是我的理解,如有错误请指出。
假设您有一个包含缺失值的数据集,并且您想要进行回归分析。您可以对 m = 5 次执行多重插补,并且对于每个插补数据集(现在有 5 个插补数据集)运行回归分析,然后通过 Rubin 规则(或使用 R)“汇集”这些 m = 5 模型的系数估计值包“池”)。
我的问题是,在小鼠中你有一个函数complete(),并且手册说你可以使用 提取完整的数据集complete(object)。
但是如果我使用 mouse m = 5 次,那么使用是否仍然有意义complete()?complete()我会得到哪些插补结果?
另外,如果我只使用 m = 1 的小鼠,这有意义吗?谢谢。
我有一个数据集,其中包含贡献者的 id 和contributor_message。我想检索具有相同消息的所有样本,例如,contributor_message == '我支持此提案,因为......'。
我使用 data.loc[data.contributor_message == '我支持这个提案,因为...'].index -> 所以基本上你可以使用相同的消息获取 DataFrame 中的索引,假设这些索引是 1, 2, 50 、9350、30678、...
然后我尝试了 data.iloc[[1,2,50]] 这给了我正确的答案,即索引与 DataFrame 索引匹配。
但是,当我使用 data.iloc[9350] 或更高索引时,我将无法获得相应的 DataFrame 索引。假设这次我在 DataFrame 中得到了 15047。
谁能建议如何解决这个问题?
我正在通过学习 git 来提高我的 python 技能,并且有几个问题。我现在在 Windows 中使用 Anaconda 3。