我试图理解为什么Keras中的正则化语法看起来像它那样.
粗略地说,正则化是通过向损失函数添加与模型权重的某些函数成比例的惩罚项来减少过度拟合的方法.因此,我希望正则化将被定义为模型损失函数规范的一部分.
然而,在Keras中,正则化是基于每层定义的.例如,考虑这种正规化的DNN模型:
input = Input(name='the_input', shape=(None, input_shape))
x = Dense(units = 250, activation='tanh', name='dense_1', kernel_regularizer=l2, bias_regularizer=l2, activity_regularizer=l2)(x)
x = Dense(units = 28, name='dense_2',kernel_regularizer=l2, bias_regularizer=l2, activity_regularizer=l2)(x)
y_pred = Activation('softmax', name='softmax')(x)
mymodel= Model(inputs=input, outputs=y_pred)
mymodel.compile(optimizer = 'adam', loss = 'categorical_crossentropy', metrics = ['accuracy'])
Run Code Online (Sandbox Code Playgroud)
我本来期望Dense层中的正则化参数不需要,我可以写下最后一行更像:
mymodel.compile(optimizer = 'adam', loss = 'categorical_crossentropy', metrics = ['accuracy'], regularization='l2')
Run Code Online (Sandbox Code Playgroud)
这显然是错误的语法,但我希望有人可以为我详细说明为什么这种方式定义正则化以及当我使用层级正则化时实际发生了什么.
我不明白的另一件事是在什么情况下我会使用三种正规化选项中的每一种或全部:(kernel_regularizer, activity_regularizer, bias_regularizer)?
nur*_*ric 17
让我们分解你问题的组成部分:
您对正规化的期望可能与前馈网络一致,其中惩罚项应用于整个网络的权重.但是当你将RNN与CNN混合使用时,情况不一定如此,因此Keras选择了精细的颗粒控制.也许为了便于设置,可以在API中为所有权重添加模型级的正则化.
现在在Keras中,您可以经常将正则化应用于3个不同的事物,如在Dense层中.每一层都有不同的内核,如周期性等,所以对于这个问题,让我们看一下你感兴趣的内容,但同样大致适用于所有层: