我试图找到C4.5算法如何确定数字属性的阈值.我已经研究过,无法理解,在大多数地方我都找到了这些信息:
首先根据所考虑的属性Y的值对训练样本进行排序.这些值只有有限数量,所以让我们按照{v1,v2,...,vm}的排序顺序表示它们.位于vi和vi + 1之间的任何阈值将具有相同的效果,即将案例划分为属性Y的值位于{v1,v2,...,vi}的值和值为{vi + 1,vi的值+ 2,...,vm}.因此在Y上只有m-1个可能的分裂,所有这些分裂都应该系统地检查以获得最佳分裂.
通常选择每个间隔的中点:(vi + vi + 1)/ 2作为代表性阈值.C4.5为每个区间{vi,vi + 1}选择较小的值vi作为阈值,而不是中点本身.
我正在研究播放/不播放(值表)的示例,并且当状态为晴天时,不理解如何获得属性湿度的数字75(树生成),因为湿度值为晴天状态为{ 70,85,90,95}.
有人知道吗?