关于实施AdaBoost算法的问题

Question

我正在尝试实现AdaBoost算法,并有两个问题.

1)在每次迭代时,必须根据概率分布对训练数据进行重新采样.重新采样数据集的大小是否应与原始数据集的大小相同.2)如果我根据概率分布重新采样训练数据集,很可能我可以获得单个数据点的多个副本.我应该在每次迭代训练弱分类器的同时保留所有这些冗余副本.

Answer 1

1）实际上不需要对数据集进行重新采样，只需对分类器训练中的数据点进行加权就足够了，即弱分类器的目标函数应该被加权。

如果数据集的大小足够大，您也可以使用采样，并且采样的数据集的大小本身并不重要。

2）如果你确实使用采样并获得冗余副本，你绝对应该保留它们，否则你的弱分类器的目标函数将不正确。