解释 R 输出 Rpart 分类树代理分割

Question

Surrogate splits:
    ##       bmi    < 21.51 to the right, agree=0.858, adj=0.632, (0 split)

据我了解，此拆分根据 bmi 值 < 21.51 将案例发送到右子节点，并且与主要变量具有类似的拆分（同意 = 0.858），并且节点杂质显着减少（adj=0.632）。

我不明白输出的（0 split）部分？另外，如果一致性的值为 1，这会很可疑吗？

谢谢！

Answer 1

例如，如果您的第一个主要分割中缺少 10 个，则 rpart 将尝试使用替代分割对它们进行分类。如果您的第一个代理变量中不缺少其中 9 个，则 rpart 将使用此变量，并且您的 rpart 输出中将在该代理变量旁边有(9 split) ，因为该变量已用于 9 次分割。

如果您的代理变量的数据也丢失，那么您的输出中将有（0 个分割）。

我不知道一致性的确切计算，但如果您的一致性为1，那么我猜代理变量会产生与使用主变量时相同的分类。例如，如果您的代理变量是主变量的单调转换版本，则可能会发生这种情况。