Max*_*xim 4 python machine-learning neural-network deep-learning tensorflow
我一直在构建一个编程语言检测器,即代码片段的分类器,作为更大项目的一部分.我的基线模型非常简单:将输入标记为输入并将片段编码为单词包,或者在这种情况下为标记包,并在这些功能之上创建一个简单的NN.
输入到NN是最有特色的令牌,诸如计数器的一个固定长度的阵列"def",
"self","function","->","const","#include",等,它们是从所述语料库自动提取.这个想法是这些令牌对于编程语言来说是非常独特的,所以即使是这种天真的方法也应该获得高准确度.
Input:
def 1
for 2
in 2
True 1
): 3
,: 1
...
Output: python
Run Code Online (Sandbox Code Playgroud)
我很快就获得了99%的准确率,并认为这是符合预期的标志.这是模型(完整的可运行脚本在这里):
# Placeholders
x = tf.placeholder(shape=[None, vocab_size], dtype=tf.float32, name='x')
y = tf.placeholder(shape=[None], dtype=tf.int32, name='y')
training = tf.placeholder_with_default(False, shape=[], name='training')
# One hidden layer with dropout
reg = tf.contrib.layers.l2_regularizer(0.01)
hidden1 = tf.layers.dense(x, units=96, kernel_regularizer=reg,
activation=tf.nn.elu, name='hidden1')
dropout1 = tf.layers.dropout(hidden1, rate=0.2, training=training, name='dropout1')
# Output layer
logits = tf.layers.dense(dropout1, units=classes, kernel_regularizer=reg,
activation=tf.nn.relu, name='logits')
# Cross-entropy loss
loss = tf.reduce_mean(
tf.nn.sparse_softmax_cross_entropy_with_logits(logits=logits, abels=y))
# Misc reports: accuracy, correct/misclassified samples, etc.
correct_predicted = tf.nn.in_top_k(logits, y, 1, name='in-top-k')
prediction = tf.argmax(logits, axis=1)
wrong_predicted = tf.logical_not(correct_predicted, name='not-in-top-k')
x_misclassified = tf.boolean_mask(x, wrong_predicted, name='misclassified')
accuracy = tf.reduce_mean(tf.cast(correct_predicted, tf.float32), name='accuracy')
Run Code Online (Sandbox Code Playgroud)
输出非常令人鼓舞:
iteration=5 loss=2.580 train-acc=0.34277
iteration=10 loss=2.029 train-acc=0.69434
iteration=15 loss=2.054 train-acc=0.92383
iteration=20 loss=1.934 train-acc=0.98926
iteration=25 loss=1.942 train-acc=0.99609
Files.VAL mean accuracy = 0.99121 <-- After just 1 epoch!
iteration=30 loss=1.943 train-acc=0.99414
iteration=35 loss=1.947 train-acc=0.99512
iteration=40 loss=1.946 train-acc=0.99707
iteration=45 loss=1.946 train-acc=0.99609
iteration=50 loss=1.944 train-acc=0.99902
iteration=55 loss=1.946 train-acc=0.99902
Files.VAL mean accuracy = 0.99414
Run Code Online (Sandbox Code Playgroud)
测试精度也在1.0左右.一切看起来都很完美.
但后来我注意到我activation=tf.nn.relu进入了最后的密集层(logits),这显然是一个错误:之前没有必要丢弃负面分数softmax,因为它们表明概率很低的类.零门槛只会使这些类人为地更加可能,这将是一个错误.摆脱它应该只会使模型在正确的类中更加健壮和自信.
那正是我所想.所以我用它取而代之activation=None,再次运行模型,然后发生了一件令人惊讶的事情:性能没有提高.完全没有.事实上,它显着下降:
iteration=5 loss=5.236 train-acc=0.16602
iteration=10 loss=4.068 train-acc=0.18750
iteration=15 loss=3.110 train-acc=0.37402
iteration=20 loss=5.149 train-acc=0.14844
iteration=25 loss=2.880 train-acc=0.18262
Files.VAL mean accuracy = 0.28711
iteration=30 loss=3.136 train-acc=0.25781
iteration=35 loss=2.916 train-acc=0.22852
iteration=40 loss=2.156 train-acc=0.39062
iteration=45 loss=1.777 train-acc=0.45312
iteration=50 loss=2.726 train-acc=0.33105
Files.VAL mean accuracy = 0.29362
Run Code Online (Sandbox Code Playgroud)
训练的准确性越来越好,但从未超过91-92%.我来回多次改变激活,改变不同的参数(图层大小,丢失,正规化,额外的图层,任何东西)并且总是有相同的结果: "错误"模型立即达到99%,而"正确"模型几乎没有50个时代后达到了90%.根据张量板,体重分布没有太大差异:梯度没有消失,两种模型都能正常学习.
这怎么可能?最终的ReLu如何使模型如此优越?特别是如果这个ReLu是一个bug?
在玩了一会儿之后,我决定想象两种模型的实际预测分布:
predicted_distribution = tf.nn.softmax(logits, name='distribution')
Run Code Online (Sandbox Code Playgroud)
以下是分布的直方图以及它们随时间的演变.
使用ReLu(错误型号)
没有ReLu(正确型号)
第一个直方图是有意义的,大多数概率接近0.但是ReLu模型的直方图是可疑的:0.15在几次迭代之后,这些值似乎集中在一起.打印实际预测证实了这个想法:
[0.14286 0.14286 0.14286 0.14286 0.14286 0.14286 0.14286]
[0.14286 0.14286 0.14286 0.14286 0.14286 0.14286 0.14286]
Run Code Online (Sandbox Code Playgroud)
我有7个班级(当时有7种不同的语言),而且0.14286是1/7.事实证明,"完美"模型学习输出
0logits,而后者又转换为统一预测.
但是,如何将此分布报告为99%准确?
tf.nn.in_top_k在深入研究之前,tf.nn.in_top_k我检查了另一种计算准确度的方法:
true_correct = tf.equal(tf.argmax(logits, 1), tf.cast(y, tf.int64))
alternative_accuracy = tf.reduce_mean(tf.cast(true_correct, tf.float32))
Run Code Online (Sandbox Code Playgroud)
...对最高预测班级和基本事实进行诚实比较.结果是这样的:
iteration=2 loss=3.992 train-acc=0.13086 train-alt-acc=0.13086
iteration=4 loss=3.590 train-acc=0.13086 train-alt-acc=0.12207
iteration=6 loss=2.871 train-acc=0.21777 train-alt-acc=0.13672
iteration=8 loss=2.466 train-acc=0.37695 train-alt-acc=0.16211
iteration=10 loss=2.099 train-acc=0.62305 train-alt-acc=0.10742
iteration=12 loss=2.066 train-acc=0.79980 train-alt-acc=0.17090
iteration=14 loss=2.016 train-acc=0.84277 train-alt-acc=0.17285
iteration=16 loss=1.954 train-acc=0.91309 train-alt-acc=0.13574
iteration=18 loss=1.956 train-acc=0.95508 train-alt-acc=0.06445
iteration=20 loss=1.923 train-acc=0.97754 train-alt-acc=0.11328
Run Code Online (Sandbox Code Playgroud)
事实上,tf.nn.in_top_k与k=1从右侧快速准确分叉并开始报道幻想99倍%的值.那它实际上做了什么?以下是文档中
所说的内容:
说目标是否在前K个预测中.
这输出
batch_sizebool数组,out[i]如果目标类的预测是例如i的所有预测中的前k个预测,则条目为真.请注意,在处理关系时,行为InTopK与TopKop 不同; 如果多个类具有相同的预测值并跨越top-k边界,则 所有这些类都被认为是在前k个.
就是这样.如果概率是统一的(实际上意味着"我不知道"),它们都是正确的.情况更糟,因为如果logits分布几乎是均匀的,softmax可能会将其转换为完全均匀的分布,如下面的简单示例所示:
x = tf.constant([0, 1e-8, 1e-8, 1e-9])
tf.nn.softmax(x).eval()
# >>> array([0.25, 0.25, 0.25, 0.25], dtype=float32)
Run Code Online (Sandbox Code Playgroud)
......这意味着根据tf.nn.in_top_k规范,每次几乎统一的预测都可以被认为是"正确的" .
tf.nn.in_top_k是张量流中准确性度量的危险选择,因为它可能会默默地吞下错误的预测并将其报告为"正确".相反,您应该始终使用这个长而可信的表达式:
accuracy = tf.reduce_mean(tf.cast(tf.equal(tf.argmax(logits, 1), tf.cast(y, tf.int64)), tf.float32))
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
12474 次 |
| 最近记录: |