什么是机器学习的归纳偏见

hag*_*aro 27 terminology machine-learning

  • 什么是机器学习的归纳偏见?
  • 为什么有必要?

我需要一个简短的解释,如一句或两句话.

Chr*_*nto 38

什么是感应偏置?

机器学习中的几乎每一个设计选择都意味着某种归纳偏差。“关系归纳偏差、深度学习和图网络”(Battaglia 等人,2018 年)是一本很棒的读物,我将在整个答案中提及。

感应偏压允许学习算法的一个解决方案(或演绎)对另一优先的,独立的观察到的数据。[...] 归纳偏差可以表达对数据生成过程或解决方案空间的假设。

深度学习中的例子

具体来说, 深度学习中层的组合提供了一种关系归纳偏差:分层处理类型施加了进一步的关系归纳偏差:

标准深度学习组件中的各种关系归纳偏差(Battaglia 等人,2018 年)

更一般地说,深度学习中使用的非关系归纳偏差包括:

  • 激活非线性,
  • 体重衰减,
  • 退出,
  • 批量和层归一化,
  • 数据增强,
  • 培训课程,
  • 优化算法,
  • 任何对学习轨迹施加限制的东西

深度学习之外的例子

在贝叶斯模型中,归纳偏差通常通过先验分布的选择和参数化来表示。向您的损失函数添加 Tikhonov 正则化惩罚意味着假设更可能出现更简单的假设。

结论

归纳偏置越强,样本效率就越高——这可以从偏置-方差权衡的角度来理解。许多现代深度学习方法遵循“端到端”的设计理念,强调最小的先验表征和计算假设,这解释了为什么它们往往是数据密集型的。另一方面,有很多研究将更强的关系归纳偏差烘焙到深度学习架构中,例如使用图网络。

关于“归纳”这个词的旁白

在哲学中,归纳推理是指从特定观察到结论的概括。这是演绎推理的对立面,演绎推理是指从一般思想到结论的专业化

  • 说得对。除此之外,可以说 Transformers 在其他算法中具有最小的归纳偏差。因为它们的数据量更大并且更通用。 (3认同)

小智 28

每种机器学习算法都具有超出其所见训练数据的任何能力,具有某种类型的归纳偏差.这是模型用于学习目标函数和概括超出训练数据的假设.

例如,在线性回归中,模型假设输出或因变量与自变量线性相关(在权重中).这是模型中的归纳偏差


Nad*_*iam 8

归纳偏差是学习者用于预测尚未遇到的输入的假设的一组假设.


Aer*_*rin 6

根据汤姆·米切尔Tom Mitchell)的定义,

学习者的归纳偏差是一组足以使其归纳推理证明为演绎推理的假设。

我对上述定义不太了解,因此我搜索了Wikipedia,并能够以外行的术语概括该定义。

给定一个数据集,应该选择哪种学习模型(=归纳偏见)?

归纳偏差对任务有一些先验假设。在所有问题上没有一种偏见是最好的,并且已经进行了大量研究工作来自动发现归纳偏差。

以下是机器学习算法中常见的归纳偏差列表。

最大条件独立性:如果可以在贝叶斯框架中进行假设假设,请尝试使条件独立性最大化。这是朴素贝叶斯分类器中使用的偏差。

最小交叉验证误差:尝试在假设中进行选择时,请选择交叉验证误差最小的假设。尽管交叉验证似乎没有偏见,但“没有免费的午餐”定理表明交叉验证必须有偏见。

最大边距:在两个类别之间绘制边界时,请尝试使边界的宽度最大化。这是支持向量机中使用的偏差。假设不同的类别往往会被宽广的界限所分隔。

最小描述长度:形成假设时,请尝试最小化假设描述的长度。假设是,更简单的假设更有可能是正确的。参见Occam的剃刀。

最小功能:除非有充分的证据表明某个功能有用,否则应将其删除。这是特征选择算法背后的假设。

最近邻居:假定要素空间中小邻居中的大多数情况属于同一类。给定一个类别未知的情况,可以猜测它与紧邻的多数属于同一类别。这是k近邻算法中使用的偏差。假设彼此接近的案例往往属于同一类。

更多信息在这里: 归纳偏见-如何归纳新数据


Vai*_*hav 6

归纳偏差可以被认为是我们对我们试图了解的领域所做的一组假设。

从技术上讲,当我们试图从 X 学习 Y 时,最初,Y 的假设空间(学习 X->Y 的不同函数)是无限的。要学习任何东西,我们需要缩小范围。这是以我们对假设空间的信念/假设的形式完成的,也称为归纳偏差。

通过引入这些假设,我们限制了我们的假设空间,并获得了以超参数的形式对数据进行增量测试和改进的能力。

感应偏置的例子 -

  • 线性回归:Y 在 X 中线性变化(在 X 的参数中)。
  • 逻辑回归:存在一个分离负/正例的超平面
  • 神经网络:粗略地说,Y 是 X 的一些非线性函数(非线性取决于激活函数、拓扑等)