如何处理C4.5(J48)决策树中缺失的属性值?

sta*_*010 6 classification machine-learning data-mining decision-tree weka

使用Weka的C4.5(J48)决策树处理缺失特征属性值的最佳方法是什么?在训练和分类期间都会出现缺失值的问题.

  1. 如果训练实例中缺少值,我是否正确假设我放置了一个'?' 功能的价值?

  2. 假设我能够成功构建决策树,然后从Weka的树结构中用C++或Java创建自己的树代码.在分类时,如果我尝试对新实例进行分类,我会为具有缺失值的功能赋予什么价值?如何将树下降到我具有未知值的决策节点?

使用Naive Bayes会更好地处理缺失值吗?我只想为他们分配一个非常小的非零概率,对吗?

gre*_*ess 9

来自佩德罗多明戈斯在华盛顿大学的ML课程:

以下是佩德罗建议的缺失价值的三种方法A:

  • 分配A排序到节点的其他示例中的最常见值n
  • 分配A具有相同目标值的其他示例中的最常见值
  • 分配概率p_i到每个可能值v_iA; 将p_i示例的分数分配给树中的每个后代.

幻灯片和视频现在可在此处查看.