在屏蔽数组的有效值上调用函数

dba*_*ton 9 python numpy

我有两个numpy蒙面数组:

>>> x
masked_array(data = [1 2 -- 4],
             mask = [False False  True False],
       fill_value = 999999)
>>> y
masked_array(data = [4 -- 0 4],
             mask = [False  True False False],
       fill_value = 999999)
Run Code Online (Sandbox Code Playgroud)

如果我试图分裂xy,当一个操作数被屏蔽不实际执行除法运算,所以我没有得到一个除以零错误.

>>> x/y
masked_array(data = [0.25 -- -- 1.0],
             mask = [False  True  True False],
       fill_value = 1e+20)
Run Code Online (Sandbox Code Playgroud)

如果我定义自己的除法函数,这甚至可以工作div:

>>> def div(a,b):
    return a/b

>>> div(x, y)
masked_array(data = [0.25 -- -- 1.0],
             mask = [False  True  True False],
       fill_value = 1e+20)
Run Code Online (Sandbox Code Playgroud)

但是,如果我用我的函数包装vectorize,则在屏蔽值上调用该函数,并且出现错误:

>>> np.vectorize(div)(x, y)
Traceback (most recent call last):
  File "<input>", line 1, in <module>
  File "/usr/lib64/python3.4/site-packages/numpy/lib/function_base.py", line 1811, in __call__
    return self._vectorize_call(func=func, args=vargs)
  File "/usr/lib64/python3.4/site-packages/numpy/lib/function_base.py", line 1880, in _vectorize_call
    outputs = ufunc(*inputs)
  File "<input>", line 2, in div
ZeroDivisionError: division by zero
Run Code Online (Sandbox Code Playgroud)

有没有办法可以使用数组参数调用函数,并且只有在所有参数都被取消屏蔽时才执行该函数?

cax*_*atl 9

问题

调用函数直接工作,因为,当你调用div(x,y),div的论点a,并b成为MaskedArrays xy,以及产生的代码a/bx.__div__(y)(或__truediv__).

现在,因为它x是一个MaskedArray,它具有按照其规则在另一个MaskedArray上执行除法的智能.

但是,当你向量化它时,你的div函数不会看到任何MaskedArrays,只是scalars,int在这种情况下是几个.所以,当它尝试a/b第三个项目时,它将是"零件",你就会得到错误.

MaskedArray的实现似乎是基于为MaskedArrays重新实现Numpy的大部分内容.例如,请参阅您同时拥有numpy.lognumpy.ma.log.比较在包含负值的MaskedArray上运行它们.两者实际上都返回了一个正确的MaskedArray,但是朴素的numpy版本也会输出一些关于除以零的抱怨:

In [116]: x = masked_array(data = [-1, 2, 0, 4],
     ...:              mask = [False, False,  True, False],
     ...:        fill_value = 999999)

In [117]: numpy.log(x)
/usr/bin/ipython:1: RuntimeWarning: divide by zero encountered in log
  #!/usr/bin/python3
/usr/bin/ipython:1: RuntimeWarning: invalid value encountered in log
  #!/usr/bin/python3
Out[117]: 
masked_array(data = [-- 0.6931471805599453 -- 1.3862943611198906],
             mask = [ True False  True False],
       fill_value = 999999)

In [118]: numpy.ma.log(x)
Out[118]: 
masked_array(data = [-- 0.6931471805599453 -- 1.3862943611198906],
             mask = [ True False  True False],
       fill_value = 999999)
Run Code Online (Sandbox Code Playgroud)

如果在普通列表上运行numpy.log版本,它将返回nan并且inf对于无效值,不会抛出类似于ZeroDivisionError您获得的错误.

In [138]: a = [1,-1,0]

In [139]: numpy.log(a)
/usr/bin/ipython:1: RuntimeWarning: divide by zero encountered in log
  #!/usr/bin/python3
/usr/bin/ipython:1: RuntimeWarning: invalid value encountered in log
  #!/usr/bin/python3
Out[139]: array([  0.,  nan, -inf])
Run Code Online (Sandbox Code Playgroud)

更简单的解决方案

有了这个,我看到了两个选择:首先,对于你列出的更简单的情况,你可以用no-op替换坏值:1 in divcase(注意数据与你的略有不同,因为有零)你没有标记为蒙面):

x = masked_array(data = [1, 2, 0, 4],
             mask = [False, False,  True, False],
       fill_value = 999999)
y = masked_array(data = [4, 0, 0, 4],
             mask = [False,  True, True, False],
       fill_value = 999999)
In [153]: numpy.vectorize(div)(x,y.filled(1))
Out[153]: 
masked_array(data = [0.25 2.0 -- 1.0],
             mask = [False False  True False],
       fill_value = 999999)
Run Code Online (Sandbox Code Playgroud)

这种方法的问题是填充值在结果中被列为非掩码,这可能不是您想要的.

好的解决方案

现在,div可能只是一个例子,你可能想要更复杂的行为,而没有'no-op'参数.在这种情况下,你可以像Numpy那样做log,并避免抛出异常,而是返回一个特定的值.在这种情况下,numpy.ma.masked. div的实现变成了这样:

In [154]: def div(a,b):
     ...:     try:
     ...:         return a/b
     ...:     except Exception as e:
     ...:         warnings.warn (str(e))
     ...:         return numpy.ma.masked
     ...:     
     ...:         

In [155]: numpy.vectorize(div)(x,y)
/usr/bin/ipython:5: UserWarning: division by zero
  start_ipython()
/usr/lib/python3.6/site-packages/numpy/lib/function_base.py:2813:     UserWarning: Warning: converting a masked element to nan.
  res = array(outputs, copy=False, subok=True, dtype=otypes[0])
Out[155]: 
masked_array(data = [0.25 -- -- 1.0],
             mask = [False  True  True False],
       fill_value = 999999)
Run Code Online (Sandbox Code Playgroud)

更通用的解决方案

但也许您已经拥有该功能,并且不想更改它,或者它是第三方.在这种情况下,您可以使用更高阶的函数:

In [164]: >>> def div(a,b):
     ...:     return a/b
     ...: 

In [165]: def masked_instead_of_error (f):
     ...:     def wrapper (*args, **kwargs):
     ...:         try:
     ...:             return f(*args, **kwargs)
     ...:         except:
     ...:             return numpy.ma.masked
     ...:     return wrapper
     ...:        

In [166]: numpy.vectorize(masked_instead_of_error(div))(x,y)
/usr/lib/python3.6/site-packages/numpy/lib/function_base.py:2813:             UserWarning: Warning: converting a masked element to nan.
  res = array(outputs, copy=False, subok=True, dtype=otypes[0])
Out[166]: 
masked_array(data = [0.25 -- -- 1.0],
             mask = [False  True  True False],
       fill_value = 999999)
Run Code Online (Sandbox Code Playgroud)

在上面的实现中,使用警告可能是也可能不是一个好主意.您可能还希望限制返回时要捕获的异常类型numpy.ma.masked.

另请注意,它masked_instead_of_error已准备好用作函数的装饰器,因此您不必每次都使用它.