具有“未知”类的机器学习分类算法

Question

我了解，如果我针对苹果，梨和香蕉的样本图片训练ML分类算法，则可以将这三种图片中的新图片分类。但是，如果我提供汽车的图片，它也会将其分类为这三个类别之一，因为它别无选择。

但是，是否有一种ML分类算法能够判断某项/图片是否真的属于该培训对象的任何类别？我知道我可以创建一个“未知”类，并在不是苹果，梨或香蕉的各种图片上对它进行训练，但是我认为训练范围将非常庞大。听起来不太实用。

Answer 1

可以在本文中找到一种方法 - https://arxiv.org/pdf/1511.06233.pdf

论文还比较了简单地在最终分数上设置阈值和作者提出的（OpenMax）技术所产生的结果。

Answer 2

我同意下面的评论，即以下答案的原始形式是不正确的。您绝对需要负样本来平衡您的训练数据集，否则您的模型可能无法学习正样本和负样本之间的有用鉴别器。

话虽这么说，您不需要对所有可能的负类进行训练，只需对执行推理时可能存在的负类进行训练。这更多地涉及如何设置问题以及计划如何使用经过训练的模型。

大多数分类算法将输出分类以及分数/确定性度量，该度量指示算法对返回的标签正确性的置信度（基于某些内部计算，这不是外部准确性评估）。

如果分数低于某个阈值，您可以输出它unknown而不是已知的类别之一。不需要用反例来训练。

我也强烈不同意。如果你在两个相对相似的类（苹果和梨）之间学习一个线性分类器，然后向它展示一辆汽车，我预计这辆车距离超平面很远，所以分类器会说“这绝对不是梨” “并且非常确定这是一个苹果。 (4认同)