“ Dropout”，“ Monte-Carlo Dropout”和“ Channel-wise Dropout”之间有什么区别？

Question

“ Dropout”，“ Monte-Carlo Dropout”和“ Channel-wise Dropout”之间有什么区别？

lmz*_*lmz 3 python deep-learning conv-neural-network keras tensorflow

我遇到了以上条款，但不确定它们之间的区别。

我的理解是MC退出是正常的退出，在测试期间也处于活动状态，这使我们能够对多个测试运行的模型不确定性进行估算。至于渠道方面的辍学，我一无所知。

奖励：在Keras中实现MC退出和通道方式退出的简单方法是什么？

Answer 1

Vla*_*lad 5

与常规的辍学不同，您还可以在推理期间应用MC辍学是正确的。如果您用google搜索，则可以轻松找到有关这两者的大量信息。

关于通道方式的退出，我的理解是，它不丢弃特定的神经元，而是丢弃整个通道。

现在在Keras中实现（我将使用tf.keras）。

MC辍学

像往常一样，Keras定义了一个自定义图层，无论是否进行训练或测试，该自定义图层都可以应用辍学，因此我们可以使用tf.nn.dropout()恒定的辍学率：

import tensorflow as tf

class MCDropout(tf.keras.layers.Layer):
    def __init__(self, rate):
        super(MCDropout, self).__init__()
        self.rate = rate

    def call(self, inputs):
        return tf.nn.dropout(inputs, rate=self.rate)

Run Code Online (Sandbox Code Playgroud)

用法示例：

import tensorflow as tf
import numpy as np

model = tf.keras.models.Sequential()
model.add(tf.keras.layers.Conv2D(filters=6, kernel_size=3))
model.add(MCDropout(rate=0.5))
model.add(tf.keras.layers.Flatten())
model.add(tf.keras.layers.Dense(2))
model.compile(optimizer=tf.keras.optimizers.SGD(0.001),
              loss='binary_crossentropy',
              metrics=['accuracy'])

# generate dummy data for illustration
x_train = np.random.normal(size=(10, 4, 4, 3))
x_train = np.vstack([x_train, 2*np.random.normal(size=(10, 4, 4, 3))])
y_train = [[1, 0] for _ in range(10)] + [[0, 1] for _ in range(10)]
y_train = np.array(y_train)

model.fit(x_train,
          y_train,
          epochs=2,
          batch_size=10,
          validation_data=(x_train, y_train))

Run Code Online (Sandbox Code Playgroud)

明智的通道辍学

您可以在此处使用相同的tf.nn.dropout()功能，但是必须指定噪声形状。该文件中tf.nn.dropout()给出了如何实现下降通道的确切例子：

shape（x）= [k，l，m，n]和noise_shape = [k，1，1，n]，每个批次和通道分量将独立保存，并且每个行和列将保留或不保留在一起。

这是我们将在call()方法中执行的操作：

class ChannelWiseDropout(tf.keras.layers.Layer):
    def __init__(self, rate):
        super(ChannelWiseDropout, self).__init__()
        self.rate = rate

    def call(self, inputs):
        shape = tf.keras.backend.shape(inputs)
        noise_shape = (shape[0], 1, 1, shape[-1])
        return tf.nn.dropout(inputs,
                             rate=self.rate,
                             noise_shape=noise_shape)

Run Code Online (Sandbox Code Playgroud)

将其应用于一些示例：

model = tf.keras.models.Sequential()
model.add(tf.keras.layers.InputLayer(input_shape=(4, 4, 3)))
model.add(tf.keras.layers.Conv2D(filters=3, kernel_size=3))
model.add(ChannelWiseDropout(rate=0.5))

x_train = np.random.normal(size=(1, 4, 4, 3))

with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    res = sess.run(model.output, feed_dict={model.inputs[0]:x_train})
    print(res[:, :, :, 0])
    print(res[:, :, :, 1])
    print(res[:, :, :, 2])
# [[[2.5495746  1.3060737 ]
#   [0.47009617 1.0427766 ]]]
# [[[-0.  0.]
#   [-0. -0.]]]                <-- second and third channels were dropped
# [[[-0. -0.]
#   [-0. -0.]]]

Run Code Online (Sandbox Code Playgroud)

注意

我正在使用tf.__version__ == '1.13.1'。tf使用旧版本keep_prob = 1 - rate而不是rate参数。

归档时间：	6 年，10 月前
查看次数：	479 次
最近记录：	6 年，3 月前