Zia*_*Zia 5 machine-learning data-mining decision-tree
当我们使用任何决策树算法时,我们的数据集由数值组成.
我发现程序提供的结果将节点拆分为数据集中甚至不存在的值
示例:
分类结果
在我的数据集中,attrib2没有像3.76179那样的值.为什么会这样?
小智 16
大多数决策树构建算法(J48,C4.5,CART,ID3)的工作原理如下:
一旦找到最佳分割点,算法就如何表示它们不一致.示例:假设您有-4(是), - 3(是), - 3(是), - 2(否), - 1(否).-3和-2之间的任何值都具有相同的纯度.一些算法(C4.5)会说val <= -3.其他人,例如Weka,将选择平均值并给出val <= -2.5.
有几种方法可以选择属性.并非所有人都在数据集中选择值.
一个常见的(虽然有点简单)是采取平均值.3.76179 ...可能是您数据集的所有attrib2的平均值.
例如,如果您的数据集是1维的,并且由值组成,-10, -9, .. -2, -1, 1, 2, ..9, 10
那么0
即使它不在您的数据集中,也会有良好的分割值.
另一种可能性,特别是当你处理随机森林(几个决策树)时,分裂值是随机选择的,概率分布以中值为中心.一些算法决定根据以平均值/中值为中心的高斯分割并且偏差等于数据集的标准偏差.
归档时间: |
|
查看次数: |
9084 次 |
最近记录: |