Theano sqrt返回NaN值

Question

Theano sqrt返回NaN值

在我的代码中,我使用theano来计算欧氏距离矩阵(此处的代码):

import theano
import theano.tensor as T
MAT = T.fmatrix('MAT')
squared_euclidean_distances = (MAT ** 2).sum(1).reshape((MAT.shape[0], 1)) + (MAT ** 2).sum(1).reshape((1, MAT.shape[0])) - 2 * MAT.dot(MAT.T)
f_euclidean = theano.function([MAT], T.sqrt(squared_euclidean_distances))
def pdist_euclidean(mat):
    return f_euclidean(mat)

Run Code Online (Sandbox Code Playgroud)

但是下面的代码会导致矩阵的某些值NaN.我已经读过,计算时会发生这种情况,theano.tensor.sqrt()并建议在这里进行

在sqrt中添加eps(或max(x,EP))

所以我在代码中添加了一个eps:

import theano
import theano.tensor as T

eps = 1e-9

MAT = T.fmatrix('MAT')

squared_euclidean_distances = (MAT ** 2).sum(1).reshape((MAT.shape[0], 1)) + (MAT ** 2).sum(1).reshape((1, MAT.shape[0])) - 2 * MAT.dot(MAT.T)

f_euclidean = theano.function([MAT], T.sqrt(eps+squared_euclidean_distances))

def pdist_euclidean(mat):
    return f_euclidean(mat)

Run Code Online (Sandbox Code Playgroud)

而且我在表演前添加它sqrt.我越来越少了NaN,但我还是得到了它们.这个问题的正确解决方案是什么？我也注意到,如果MAT 是T.dmatrix() 没有NaN

Answer 1

Dan*_*haw 6

计算欧几里德距离时,有两种可能的NaN来源.

浮点表示近似问题导致负距离,当它实际上只是零.负数的平方根是未定义的(假设您对复杂解决方案不感兴趣).

想象MAT有价值

[[ 1.62434536 -0.61175641 -0.52817175 -1.07296862  0.86540763]
 [-2.3015387   1.74481176 -0.7612069   0.3190391  -0.24937038]
 [ 1.46210794 -2.06014071 -0.3224172  -0.38405435  1.13376944]
 [-1.09989127 -0.17242821 -0.87785842  0.04221375  0.58281521]]

Run Code Online (Sandbox Code Playgroud)

现在,如果我们分解计算,我们看到它(MAT ** 2).sum(1).reshape((MAT.shape[0], 1)) + (MAT ** 2).sum(1).reshape((1, MAT.shape[0]))有价值

[[ 10.3838024   -9.92394296  10.39763039  -1.51676099]
 [ -9.92394296  18.16971188 -14.23897281   5.53390084]
 [ 10.39763039 -14.23897281  15.83764622  -0.65066204]
 [ -1.51676099   5.53390084  -0.65066204   4.70316652]]

Run Code Online (Sandbox Code Playgroud)

并且2 * MAT.dot(MAT.T)有价值

[[ 10.3838024   14.27675714  13.11072431   7.54348446]
 [ 14.27675714  18.16971188  17.00367905  11.4364392 ]
 [ 13.11072431  17.00367905  15.83764622  10.27040637]
 [  7.54348446  11.4364392   10.27040637   4.70316652]]

Run Code Online (Sandbox Code Playgroud)

这两个值的对角线应该相等(矢量和它自身之间的距离为零),从这个文本表示看起来它是真的,但事实上它们略有不同 - 差异太小而不能显示出来我们打印这样的浮点值

当我们打印完整表达式的值(上面第二个矩阵从第一个中减去)时,这一点就变得很明显了

[[  0.00000000e+00   2.42007001e+01   2.71309392e+00   9.06024545e+00]
 [  2.42007001e+01  -7.10542736e-15   3.12426519e+01   5.90253836e+00]
 [  2.71309392e+00   3.12426519e+01   0.00000000e+00   1.09210684e+01]
 [  9.06024545e+00   5.90253836e+00   1.09210684e+01   0.00000000e+00]]

Run Code Online (Sandbox Code Playgroud)

对角线几乎由零组成,但第二行中的项目,第二列现在是一个非常小的负值.然后,当您计算所有这些值的平方根时,您将获得NaN该位置,因为负数的平方根未定义(对于实数).

[[ 0.          4.91942071  1.64714721  3.01002416]
 [ 4.91942071         nan  5.58951267  2.42951402]
 [ 1.64714721  5.58951267  0.          3.30470398]
 [ 3.01002416  2.42951402  3.30470398  0.        ]]

Run Code Online (Sandbox Code Playgroud)

计算欧几里德距离表达式相对于函数输入内部变量的梯度.这不仅发生在由于浮点近似而产生的负数(如上所述),而且如果任何输入为零长度时也会发生.

如果y = sqrt(x)那么dy/dx = 1/(2 * sqrt(x)).因此,如果x=0或者,为了您的目的,如果squared_euclidean_distances=0那时梯度将是NaN因为2 * sqrt(0) = 0并且除以零是未定义的.

第一个问题的解决方案可以通过强制它们不小于零来确保平方距离永远不会为负:

T.sqrt(T.maximum(squared_euclidean_distances, 0.))

Run Code Online (Sandbox Code Playgroud)

要解决这两个问题(如果你需要渐变),那么你需要确保平方距离永远不是负的或零,所以用一个小的正epsilon绑定:

T.sqrt(T.maximum(squared_euclidean_distances, eps))

Run Code Online (Sandbox Code Playgroud)

第一种解决方案是有意义的,因为问题只来自近似表示.第二个问题有点可疑,因为真实距离为零,所以在某种意义上,渐变应该是不确定的.您的特定用例可能会产生一些替代解决方案,该解决方案在没有人为限制的情况下维护语义(例如,通过确保永远不会计算梯度或使用零长度向量).但NaN价值观可能是有害的:它们可以像杂草一样传播.

归档时间：	10 年，1 月前
查看次数：	1744 次
最近记录：	10 年，1 月前