批量标准化,是还是否?

Alb*_*ert 5 python neural-network keras batch-normalization

我使用Tensorflow 1.14.0和Keras 2.2.4。以下代码实现了一个简单的神经网络:

import numpy as np
np.random.seed(1)
import random
random.seed(2)
import tensorflow as tf
tf.set_random_seed(3)

from tensorflow.keras.models import Model, Sequential
from tensorflow.keras.layers import Input, Dense, Activation


x_train=np.random.normal(0,1,(100,12))

model = Sequential()
model.add(Dense(8, input_shape=(12,)))
# model.add(tf.keras.layers.BatchNormalization())
model.add(Activation('linear'))
model.add(Dense(12))
model.add(Activation('linear'))
model.compile(optimizer='adam', loss='mean_squared_error')
model.fit(x_train, x_train,epochs=20, validation_split=0.1, shuffle=False,verbose=2)
Run Code Online (Sandbox Code Playgroud)

20个纪元后的最终val_loss为0.7751。当我取消注释添加批处理规范化层的唯一注释行时,val_loss更改为1.1230。

我的主要问题是方法更复杂,但同样的事情也会发生。由于激活是线性的,因此在激活之后还是之前将批处理归一化都没关系。

问题:为什么批量规范化无济于事?有什么我可以更改的,以便批量标准化可以在不更改激活功能的情况下改善结果吗?

收到评论后更新:

具有一个隐藏层和线性激活的NN类似于PCA。有大量的论文。对我来说,此设置在隐藏层和输出的所有激活功能组合中提供的MSE最小。

声明线性激活的某些资源表示PCA:

https://arxiv.org/pdf/1702.07800.pdf

https://link.springer.com/article/10.1007/BF00275687

https://www.quora.com/How-can-I-make-a-neural-network-to-work-as-a-PCA

Ove*_*gon 5

是的。

你观察到的行为是一个错误——你不需要 BN 就能看到它;左边的绘图是为了#V1,右边是为了#V2

在此处输入图片说明

#V1
model = Sequential()
model.add(Dense(8, input_shape=(12,)))
#model.add(Activation('linear')) <-- uncomment == #V2
model.add(Dense(12))
model.compile(optimizer='adam', loss='mean_squared_error')
Run Code Online (Sandbox Code Playgroud)

显然是荒谬的,因为Activation('linear')在带有activation=None(== 'linear')的层之后是一个身份: model.layers[1].output.name == 'activation/activation/Identity:0'。这可以通过获取和绘制中间层输出来进一步确认,这些输出与'dense''activation'- 将在此处省略。

所以,激活实际上什么都不做,除了它没有 - 沿着提交链在 1.14.0 和 2.0.0 之间的某个地方,这是固定的,虽然我不知道在哪里。结果 w/BN 使用 TF 2.0.0 w/Keras 2.3.1 如下:

val_loss = 0.840 # without BN
val_loss = 0.819 # with BN
Run Code Online (Sandbox Code Playgroud)

在此处输入图片说明


解决方案:更新到 TensorFlow 2.0.0、Keras 2.3.1。

提示:使用带有虚拟环境的Anaconda。如果您还没有任何虚拟环境,请运行:

conda create --name tf2_env --clone base
conda activate tf2_env
conda uninstall tensorflow-gpu
conda uninstall keras
conda install -c anaconda tensorflow-gpu==2.0.0
conda install -c conda-forge keras==2.3.1
Run Code Online (Sandbox Code Playgroud)

可能比这更复杂,但这是另一个问题的主题。


更新:从而keras不是导入tf.keras也解决了问题。


免责声明:BN 在 Keras 中仍然是一个“有争议的”层,尚未完全修复 - 请参阅相关 Git;我计划最终自己调查它,但为了您的目的,这个答案的修复就足够了。

我还建议您熟悉 BN 的基本理论,特别是关于其训练与推理操作;简而言之,32 以下的批量大小是一个非常糟糕的主意,并且数据集应该足够大以允许 BN 准确地近似测试集gammabeta.


使用的代码:

x_train=np.random.normal(0, 1, (100, 12))

model = Sequential()
model.add(Dense(8, input_shape=(12,)))
#model.add(Activation('linear'))
#model.add(tf.keras.layers.BatchNormalization())
model.add(Dense(12))
model.compile(optimizer='adam', loss='mean_squared_error')

W_sum_all = []  # fit rewritten to allow runtime weight collection
for _ in range(20):
    for i in range(9):
        x = x_train[i*10:(i+1)*10]
        model.train_on_batch(x, x)

        W_sum_all.append([])
        for layer in model.layers:
            if layer.trainable_weights != []:
                W_sum_all[-1] += [np.sum(layer.get_weights()[0])]
model.evaluate(x[-10:], x[-10:])

plt.plot(W_sum_all)
plt.title("Sum of weights (#V1)", weight='bold', fontsize=14)
plt.legend(labels=["dense", "dense_1"], fontsize=14)
plt.gcf().set_size_inches(7, 4)
Run Code Online (Sandbox Code Playgroud)

导入/预执行:

import numpy as np
np.random.seed(1)
import random
random.seed(2)
import tensorflow as tf
if tf.__version__[0] == '2':
    tf.random.set_seed(3)
else:
    tf.set_random_seed(3)

import matplotlib.pyplot as plt
from tensorflow.keras.models import Model, Sequential
from tensorflow.keras.layers import Input, Dense, Activation
Run Code Online (Sandbox Code Playgroud)

  • @Albert,你甚至“远程”看到任何接近这个答案的深度和质量的东西的可能性很小;请务必查看 OP 关于 [TensorFlow 2 与 TensorFlow 1 性能问题](/sf/ask/4090906011/) 的令人难以置信的调查。 (2认同)