om-*_*nom 2 decision-tree weka arff
Weka中的分类器(如决策树)将如何解释'?' (在ARFF文件中代表缺失值)在学习阶段?We Weka会用一些预定义的值(例如'0'或'false')替换它,还是会以某种方式影响训练过程?
除了将缺失值作为属性值单独处理之外,在J48分类器的情况下,对具有缺失值的属性的任何分割将使用与观察到的非缺失值的频率成比例的权重来完成.这在Witten和Frank的教科书" 数据挖掘实用机器学习工具和技术"(2005年,第2版,第63页和第191页)中有记录,然后他们报告了这一点.
最终,实例的各个部分将各自到达叶节点,并且必须使用渗透到叶子的权重来重新组合这些叶节点处的决策.
有关处理决策树中缺失值的更多信息,例如CART中的替代分裂(与C4.5或其后继者J48相反),可以在分类树的维基部分找到; 在几篇文章中也讨论了插补的使用,例如 处理树木中的缺失数据:替代分裂或统计插补.