标签: regularized

我正在尝试在简单神经网络的第一层（1 个隐藏层）上实现 L1 正则化。我查看了 StackOverflow 上的一些其他帖子，这些帖子使用 Pytorch 应用 l1 正则化来弄清楚它应该如何完成（参考：在 PyTorch 中添加 L1/L2 正则化？，在 Pytorch 中，如何将 L1 正则化添加到激活中？）。无论我将 lambda（l1 正则化强度参数）增加多高，我都不会在第一个权重矩阵中得到真正的零。为什么会这样？（代码如下）

import torch
import torch.nn as nn
import torch.nn.functional as F
import numpy as np

class Network(nn.Module):
    def __init__(self,nf,nh,nc):
        super(Network,self).__init__()
        self.lin1=nn.Linear(nf,nh)
        self.lin2=nn.Linear(nh,nc)

    def forward(self,x):
        l1out=F.relu(self.lin1(x))
        out=F.softmax(self.lin2(l1out))
        return out, l1out

def l1loss(layer):
    return torch.norm(layer.weight.data, p=1)

nf=10
nc=2
nh=6
learningrate=0.02
lmbda=10.
batchsize=50

net=Network(nf,nh,nc)

crit=nn.MSELoss()
optimizer=torch.optim.Adagrad(net.parameters(),lr=learningrate)


xtr=torch.Tensor(xtr)
ytr=torch.Tensor(ytr)
#ytr=torch.LongTensor(ytr)
xte=torch.Tensor(xte)
yte=torch.LongTensor(yte)
#cyte=torch.Tensor(yte)

it=200
for epoch in range(it):
    per=torch.randperm(len(xtr))
    for i …

Run Code Online (Sandbox Code Playgroud)

neural-network python-3.x regularized pytorch

cyr*_*dil

lucky-day

6
推荐指数

1
解决办法

1950
查看次数

反转 dropout 如何补偿 dropout 的影响并保持期望值不变？

我正在从deeplearning.ai课程中学习神经网络中的正则化。在 dropout 正则化中，教授说如果应用 dropout，计算的激活值将小于未应用 dropout 时（测试时）。所以我们需要扩展激活以保持测试阶段更简单。

我明白这个事实，但我不明白缩放是如何完成的。这是一个用于实现反向 dropout 的代码示例。

keep_prob = 0.8   # 0 <= keep_prob <= 1
l = 3  # this code is only for layer 3
# the generated number that are less than 0.8 will be dropped. 80% stay, 20% dropped
d3 = np.random.rand(a[l].shape[0], a[l].shape[1]) < keep_prob

a3 = np.multiply(a3,d3)   # keep only the values in d3

# increase a3 to not reduce the expected value of output
# (ensures that the expected value …

Run Code Online (Sandbox Code Playgroud)

machine-learning neural-network regularized deep-learning dropout

Kau*_*l28

lucky-day

6
推荐指数

1
解决办法

880
查看次数

如何在 Keras/TensorFlow 的自定义层中应用内核正则化？

请考虑 TensorFlow 教程中的以下自定义层代码：

class MyDenseLayer(tf.keras.layers.Layer):
  def __init__(self, num_outputs):
    super(MyDenseLayer, self).__init__()
    self.num_outputs = num_outputs

  def build(self, input_shape):
    self.kernel = self.add_weight("kernel",
                                  shape=[int(input_shape[-1]),
                                         self.num_outputs])

  def call(self, input):
    return tf.matmul(input, self.kernel)

Run Code Online (Sandbox Code Playgroud)

tf.keras.regularizers.L1如何对自定义层的参数应用任何预定义的正则化（例如）或自定义正则化？

python machine-learning regularized keras tensorflow

use*_*983

2020 08-06

6
推荐指数

1
解决办法

3473
查看次数

如何在 scikit-learn LogisticRegression 中设置拦截缩放

我正在使用 scikit-learn 的 LogisticRegression 对象进行正则化二元分类。我已经阅读了文档，intercept_scaling但我不明白如何明智地选择这个值。

数据集如下所示：

10-20 个特征，300-500 个重复
高度非高斯分布，事实上大多数观测值为零
输出类别的可能性不一定相同。在某些情况下，它们几乎是 50/50，而在其他情况下，它们更像是 90/10。
通常C=0.001会给出良好的交叉验证结果。

该文档包含警告，指出拦截本身需要进行正则化，就像其他所有功能一样，这intercept_scaling可以用来解决这个问题。但我该如何选择这个值呢？一个简单的答案是探索C和的多种可能组合intercept_scaling，并选择能够提供最佳性能的参数。但这个参数搜索将花费相当长的时间，我想如果可能的话避免这种情况。

理想情况下，我想使用截距来控制输出预测的分布。也就是说，我想确保分类器在训练集上预测“1 类”的概率等于训练集中“1 类”数据的比例。我知道在某些情况下会出现这种情况，但我的数据中并非如此。我不知道这是由于正则化还是由于输入数据的非高斯性质。

感谢您的任何建议！

regression classification machine-learning regularized scikit-learn

cxr*_*ers

2013 07-19

5
推荐指数

1
解决办法

3628
查看次数