use*_*790 2 vowpalwabbit logistic-regression
我使用vowpal wabbit进行逻辑回归.我开始知道vowpal wabbit从给定的训练数据中选择一个保持集进行验证.这个集是随机选择的.我有一个非常不平衡的数据集,包含100 + ve示例和1000个示例.我想知道这个训练数据,vowpal wabbit如何选择实例?
如何为+ ve示例分配更多权重
默认情况下,每个第10个示例用于保持(您可以使用--holdout_period,请参阅https://github.com/JohnLangford/vowpal_wabbit/wiki/Command-line-arguments#holdout-options).这意味着仅使用90%的训练数据训练训练时使用保持评估的模型.这可能导致精度稍差.另一方面,它允许你使用--early_terminate(默认情况下设置为3次通过),这样可以更容易降低因过多训练过程而导致过度训练的风险.请注意,默认情况下,只有在使用多次传递时才会启用保持评估(否则,VW会使用渐进式验证丢失).
至于第二个问题,你可以为正面例子增加重要性.默认重要性权重为1.请参阅https://github.com/JohnLangford/vowpal_wabbit/wiki/Input-format