具有“未知”类的机器学习分类算法

sta*_*nko 5 algorithm

我了解,如果我针对苹果,梨和香蕉的样本图片训练ML分类算法,则可以将这三种图片中的新图片分类。但是,如果我提供汽车的图片,它也会将其分类为这三个类别之一,因为它别无选择。

但是,是否有一种ML分类算法能够判断某项/图片是否真的属于该培训对象的任何类别?我知道我可以创建一个“未知”类,并在不是苹果,梨或香蕉的各种图片上对它进行训练,但是我认为训练范围将非常庞大。听起来不太实用。

小智 5

可以在本文中找到一种方法 - https://arxiv.org/pdf/1511.06233.pdf

论文还比较了简单地在最终分数上设置阈值和作者提出的(OpenMax)技术所产生的结果。


eva*_*man 1

编辑 02/2019:

我同意下面的评论,即以下答案的原始形式是不正确的。您绝对需要负样本来平衡您的训练数据集,否则您的模型可能无法学习正样本和负样本之间的有用鉴别器。

话虽这么说,您不需要对所有可能的负类进行训练,只需对执行推理时可能存在的负类进行训练。这更多地涉及如何设置问题以及计划如何使用经过训练的模型。

原答案:

大多数分类算法将输出分类以及分数/确定性度量,该度量指示算法对返回的标签正确性的置信度(基于某些内部计算,这不是外部准确性评估)。

如果分数低于某个阈值,您可以输出它unknown而不是已知的类别之一。不需要用反例来训练。

  • 我也强烈不同意。如果你在两个相对相似的类(苹果和梨)之间学习一个线性分类器,然后向它展示一辆汽车,我预计这辆车距离超平面很远,所以分类器会说“这绝对不是梨” “并且非常确定这是一个苹果。 (4认同)