What is weakly supervised learning (bootstrapping)?

Che*_*hie 19 classification machine-learning

I understand the differences between supervised and unsupervised learning:

Supervised Learning is a way of "teaching" the classifier, using labeled data.

Unsupervised Learning lets the classifier "learn by itself", for example, using clustering.

But what is "weakly supervised learning"? How does it classify it's examples?

Jir*_*rka 24

简而言之:在弱监督学习中,您使用有限数量的标记数据.

如何选择此数据,以及您使用它的具体操作取决于方法.通常,您使用有限数量的数据,这些数据很容易获得和/或产生真正的差异,然后学习其余的数据.我认为bootstrapping是一种可用于弱监督学习的方法,但正如Ben的评论所示,这不是一个普遍接受的观点.

例如,请参阅本论文以获得一个很好的概述(但我不确定半监督和弱监督学习之间的区别是否被普遍接受),它描述了关于自举/弱监督学习的以下内容:

引导,也称为自我训练,是一种学习形式,旨在使用更少的训练样例,因此有时被称为弱监督.Bootstrapping从一些训练样例开始,训练分类器,并使用这个分类器产生的思想成为积极的例子进行再训练.随着训练样例集的增长,分类器得到改善,前提是没有太多负面例子被错误分类为正面,这可能导致性能下降.

例如,在词性标注的情况下,人们通常在10,000个单词上训练HMM(或最大熵或其他)标签,每个单词都有它的POS.在弱监督标记的情况下,您可能只使用一个非常小的100个单词的语料库.你得到一些标记器,你用它来标记1000个单词的语料库,你训练一个标记器并用它来标记更大的语料库.显然,你必须比这更聪明,但这是一个好的开始.(有关自举标记器的更高级示例,请参阅此文章)

注意:弱监督学习也可以指带有嘈杂标签的学习(这种标签可以但不需要是自举的结果)


Tud*_*him 23

  • 监管不力是带有嘈杂标签的监督.例如,bootstrapping,其中引导过程可能错误地标记了一些示例.
  • 远程监督是指不直接标记示例的训练信号; 例如,从问答数据集中学习语义解析器.
  • 半监督学习是指您有一个部分标记且部分未标记的数据集.
  • 全面监督学习是指每个数据点都有地面实况标签.


Ale*_*uat 5

本文 [1] 定义了 3 种典型的弱监督类型:

  • 不完全监督,其中只有一部分训练数据带有标签;(我认为这与半监督相同)
  • 不精确监督,训练数据只给出粗粒度标签;
  • 不准确的监督,其中给定的标签并不总是真实的。

[1] 周志华,弱监督学习简介,国家科学评论,第 5 卷,第 1 期,2018 年 1 月,第 44-53 页,https: //doi.org/10.1093/nsr/nwx106