我最近在研究 CNN,我想知道 softmax 公式中温度的函数是什么?为什么我们应该使用高温来查看概率分布中更软的范数?Softmax 公式
machine-learning deep-learning conv-neural-network softmax densenet
我目前正在首次使用深度 q 学习来训练多个循环卷积神经网络。
输入是一个 11x11x1 矩阵,每个网络由 4 个卷积层组成,尺寸分别为 3x3x16、3x3x32、3x3x64、3x3x64。我使用 stride=1 和 padding=1。每个 convLayer 后面都有 ReLU 激活。输出被馈送到具有 128 个单元的前馈全连接密集层,然后馈入同样包含 128 个单元的 LSTM 层。接下来的两个致密层产生单独的优势和价值流。
因此,训练现在已经运行了几天,现在我已经意识到(在阅读了一些相关论文之后),我没有在第一个密集层之后添加激活函数(就像大多数论文中那样)。我想知道添加一个是否会显着改善我的网络?由于我正在为大学培训网络,因此由于我的工作截止日期,我没有无限的培训时间。但是,我在训练神经网络方面没有足够的经验来决定要做什么......你有什么建议?我很感谢每一个答案!
neural-network deep-learning activation-function pytorch densenet