关于实施AdaBoost算法的问题

use*_*609 5 r machine-learning data-mining adaboost

我正在尝试实现AdaBoost算法,并有两个问题.

1)在每次迭代时,必须根据概率分布对训练数据进行重新采样.重新采样数据集的大小是否应与原始数据集的大小相同.2)如果我根据概率分布重新采样训练数据集,很可能我可以获得单个数据点的多个副本.我应该在每次迭代训练弱分类器的同时保留所有这些冗余副本.

tjl*_*tjl 3

1)实际上不需要对数据集进行重新采样,只需对分类器训练中的数据点进行加权就足够了,即弱分类器的目标函数应该被加权。

如果数据集的大小足够大,您也可以使用采样,并且采样的数据集的大小本身并不重要。

2)如果你确实使用采样并获得冗余副本,你绝对应该保留它们,否则你的弱分类器的目标函数将正确。