有批量标准化的网络使用autoencoder有什么意义吗？

Ale*_*lex 4 machine-learning neural-network autoencoder deep-learning conv-neural-network

众所周知,DNN的主要问题是学习时间长.

但是有一些方法可以加速学习:

批量标准化 =(x-AVG)/Variance:https://arxiv.org/abs/1502.03167

批量标准化实现了相同的准确度,培训步骤减少了14倍

ReLU =max(x, 0) - 整流线性单元(ReLU,LReLU,PReLU,RReLU):https://arxiv.org/abs/1505.00853

使用非饱和激活函数的优点在于两个方面:第一个是解决所谓的"爆炸/消失梯度".第二是加快收敛速度.

或者任何一个:( maxout,ReLU-family,tanh)

快速权重初始化(避免消失或爆炸渐变):https://arxiv.org/abs/1511.06856

我们的初始化与标准计算机视觉任务(例如图像分类和物体检测)上的当前最先进的无监督或自我监督的预训练方法相匹配,同时大约快三个数量级.

或LSUV初始化(层序单位方差):https://arxiv.org/abs/1511.06422

但是如果我们使用所有步骤:(1)批量标准化,(2)ReLU,(3)快速权重初始化或LSUV - 那么在训练深度神经网络的任何步骤中使用自动编码器/自动关联器是否有任何意义？

TL;博士

自动编码器可以被视为以智能方式初始化权重的替代方法.因此,您使用自动编码器而不是您描述的"快速"权重初始化算法.

更详细的解释

自动编码器和RBM经常用于预训练深度神经网络.由于非常高维的参数空间,早期的深度神经网络几乎不可能训练.一个简单的随机梯度下降算法只能非常缓慢地收敛,并且通常会陷入糟糕的局部最优.解决这个问题是使用RBMS(G.顿等人)或自动编码(Y. Bengio 等)向网络中的无监督的方式预培养.

这有两个很大的优点:

您不需要大量标记的训练数据.通常,有很多未标记的数据可用(想想:互联网上的图像),但标记它们是一项非常昂贵的任务.
你可以贪婪地逐层训练它们.这意味着,您将训练第一个(1层)自动编码器.一旦实现了良好的重建,就可以在其上堆叠另一个自动编码器.您无需触摸第一个自动编码器即可训练第二个自动编码器.这有助于保持参数数量较少,从而使培训更简单,更快捷.

在训练RBM或自动编码器之后,您可以将输出层放置在预训练网络的顶部,并以监督方式训练整个网络并进行反向传播.此步骤也称为微调.由于除了输出层之外的所有层都已经过预先训练,因此权重不必进行太多改变,您将很快找到解决方案.

最后,回答你的问题

使用自动编码器是否有意义？如果你有很多标签的训练数据,为什么还要费心呢？只需尽可能智能地初始化权重,让GPU咆哮几周.

但是,如果标记的训练数据很少,则收集大量未标记的数据并训练自动编码器.有了它,您可以确保通过少量标记示例实现快速收敛和良好的解决方案.

您没有回答有关批量标准化的主要问题。 (3认同)

归档时间：	9 年，2 月前
查看次数：	3838 次
最近记录：	9 年，2 月前

公开可用的垃圾邮件过滤器培训集 39

分解趋势,季节和剩余时间序列元素 14

SQuAD 挑战中的 EM 分数 13

用于连续状态,离散动作的强化学习算法 7

嵌入查找表不会屏蔽填充值 7

为什么如此低的预测率25 - 40 [sec/1]使用更快的RCNN在GPU上进行自定义对象检测？ 6

K-均值算法 5

将Keras模型导出到.pb文件并优化推理以在Android上提供随机猜测 5

使用sklearn管线比较多种算法 5

机器学习中的规范化和正则化有什么区别 1

JavaScript对象的长度 2224

如何在Windows上找出正在侦听端口的进程？ 2040

2048游戏的最佳算法是什么？ 1893

在PostgreSQL中显示表格 1703

LINQ中的多个"order by" 1537

如何离开/退出/停用python virtualenv？ 1461

如何在HTTP POST请求中发送参数？ 1396

Android中的gravity和layout_gravity有什么区别？ 1286

选择每个GROUP BY组中的第一行？ 1205

如何测量函数执行所花费的时间 1057