计算多个分类器的分数

jd.*_*jd. 3 classification machine-learning

我正在尝试确定大型集合中的成对项目之间的相似性。这些项目有多个属性,我能够计算每个属性的离散相似度分数(介于 0 和 1 之间)。我根据属性使用各种分类器:TF-IDF 余弦相似度、朴素贝叶斯分类器等。

当我将所有这些信息编译成所有项目的最终相似度分数时,我陷入了困境。我不能只取未加权的平均值,因为 1)什么是高分取决于分类器,2)某些分类器比其他分类器更重要。另外,一些分类器应该只考虑它们的高分,即高分表示较高的相似度,但较低的分没有意义。

到目前为止,我已经通过猜测计算了最终分数,但分类器数量的增加使得这是一个非常糟糕的解决方案。有什么技术可以确定一个最佳公式,该公式将采用我的各种分数并仅返回一个分数?值得注意的是,系统确实会收到人类反馈,这就是一些分类器的工作原理。

最终我只对每个项目最相似的排名感兴趣。绝对分数本身是没有意义的,只有它们的顺序很重要。

小智 5

有一本关于集成分类器主题的好书。它在线:组合模式分类器

本书中有两章(第 4 章和第 5 章)介绍标签输出的融合以及如何获取单个决策值。

本章定义了一组方法,包括:

1- 加权多数投票

2-朴素贝叶斯组合

3-...

我希望这就是您正在寻找的。