use*_*609 5 r machine-learning data-mining adaboost
我正在尝试实现AdaBoost算法,并有两个问题.
1)在每次迭代时,必须根据概率分布对训练数据进行重新采样.重新采样数据集的大小是否应与原始数据集的大小相同.2)如果我根据概率分布重新采样训练数据集,很可能我可以获得单个数据点的多个副本.我应该在每次迭代训练弱分类器的同时保留所有这些冗余副本.
1)实际上不需要对数据集进行重新采样,只需对分类器训练中的数据点进行加权就足够了,即弱分类器的目标函数应该被加权。
如果数据集的大小足够大,您也可以使用采样,并且采样的数据集的大小本身并不重要。
2)如果你确实使用采样并获得冗余副本,你绝对应该保留它们,否则你的弱分类器的目标函数将不正确。
| 归档时间: |
|
| 查看次数: |
1129 次 |
| 最近记录: |