我正在研究 WGAN,并希望实现 WGAN-GP。
在其原始论文中,由于 1-Lipschitiz 约束,WGAN-GP 是通过梯度惩罚来实现的。但是像 Keras 这样的包可以将梯度范数限制为 1(根据定义,这相当于 1-Lipschitiz 约束),那么为什么我们要费心去惩罚梯度呢?为什么我们不直接裁剪渐变呢?
machine-learning gradient-descent generative-adversarial-network
generative-adversarial-network ×1
gradient-descent ×1
machine-learning ×1