我有机器学习问题,我不知道是否有理论上的解决方案.
我已经标记了数据(我们称之为数据集D1)来构建一个随机的森林分类模型并且表现良好.
现在我的主要兴趣是将此模型应用于另一个具有零标签的数据集D2,这意味着我无法将其用于训练.衡量D2性能的唯一方法是检查从中预测的类的比例.
问题:与D1相比,D2是偏斜的(功能不具有相同的均值或适合相同的分布).因此,应用于D2的模型会给一个类带来严重偏差的结果.我知道这是正常的,因为大多数D2类似于D1的一小部分.
但有没有办法纠正这种偏斜?我从问题的本质上知道预测的班级比例应该不那么偏颇.我已经尝试了规范化,但它并没有真正帮助.
我觉得我没有直接思考:3