使用多种训练数据源进行监督学习

use*_*866 5 artificial-intelligence machine-learning

我不确定这是机器学习问题的正确交换网站,但我之前确实看过ML问题所以我正在尝试运气(也发布在http://math.stackexchange.com).

我有来自不同来源的培训实例,因此构建一个模型效果不佳.在这种情况下是否有已知的方法?

示例解释最佳.假设我想根据不同人群构建的训练数据对癌症/非癌症进行分类.一个群体的训练实例可能与其他群体的正面/负面例子分布完全不同.现在,我可以为每个人口建立一个单独的模型,但问题是,对于测试,我不知道测试实例来自哪个群体.

*所有培训/测试实例都具有完全相同的功能集,无论它们来自何种人群.

Rob*_*aus 2

我怀疑这可能不会比将所有数据放入在整个数据集上训练的单个分类器中更好。从较高的层次来看,数据集的特征应该告诉您标签,而不是输入分布。但你可以尝试一下。

为每个数据集训练一个单独的分类器来尝试预测标签。然后在组合分布上训练分类器,尝试预测数据点来自哪个数据集。然后,当您想要预测测试实例的标签时,请使用每个子分类器,并为其赋予与高级数据集分类器分配的权重成比例的权重。

这感觉很像混合高斯的估计步骤,在该步骤中,您通过采用由 K 个中心的估计值分配的概率加权平均值来分配生成数据点的概率。