解释 R 输出 Rpart 分类树代理分割

all*_*emf 4 r classification machine-learning decision-tree rpart

Surrogate splits:
    ##       bmi    < 21.51 to the right, agree=0.858, adj=0.632, (0 split)
Run Code Online (Sandbox Code Playgroud)

据我了解,此拆分根据 bmi 值 < 21.51 将案例发送到右子节点,并且与主要变量具有类似的拆分(同意 = 0.858),并且节点杂质显着减少(adj=0.632)。

我不明白输出的(0 split)部分?另外,如果一致性的值为 1,这会很可疑吗?

谢谢!

Gab*_*bra 5

例如,如果您的第一个主要分割中缺少 10 个,则 rpart 将尝试使用替代分割对它们进行分类。如果您的第一个代理变量中不缺少其中 9 个,则 rpart 将使用此变量,并且您的 rpart 输出中将在该代理变量旁边有(9 split) ,因为该变量已用于 9 次分割。

如果您的代理变量的数据也丢失,那么您的输出中将有(0 个分割)

我不知道一致性的确切计算但如果您的一致性为1,那么我猜代理变量会产生与使用主变量时相同的分类。例如,如果您的代理变量是主变量的单调转换版本,则可能会发生这种情况。