比较(断言相等)两个在unittest中包含numpy数组的复杂数据结构

Lev*_*sky 20 python unit-testing numpy

我使用Python的unittest模块,并想检查两个复杂的数据结构是否相等.对象可以是具有各种值的dicts列表:数字,字符串,Python容器(列表/元组/ dicts)和numpy数组.后者是提出问题的原因,因为我不能这样做

self.assertEqual(big_struct1, big_struct2)
Run Code Online (Sandbox Code Playgroud)

因为它会产生一个

ValueError: The truth value of an array with more than one element is ambiguous.
Use a.any() or a.all()
Run Code Online (Sandbox Code Playgroud)

我想我需要为此编写自己的相等测试.它应该适用于任意结构.我目前的想法是递归函数:

  • 尝试直接比较当前"节点" arg1到相应节点arg2;
  • 如果没有引发异常,则继续(此处也处理"终端"节点/叶子);
  • 如果ValueError被抓住,会更深入,直到找到numpy.array;
  • 比较数组(例如像这样).

看起来有点问题的是跟踪两个结构的"相应"节点,但也许这zip就是我所需要的.

问题是:这种方法有更好(更简单)的替代方案吗?也许numpy为此提供了一些工具?如果没有建议的替代方案,我将实施这个想法(除非我有一个更好的想法)并发布作为答案.

PS我有一种模糊的感觉,我可能已经看到了解决这个问题的问题,但我现在找不到它.

PPS另一种方法是遍历结构并将所有numpy.arrays 转换为列表的函数,但是这更容易实现吗?对我来说似乎一样.


编辑:子类化numpy.ndarray听起来很有希望,但显然我没有将比较的两面硬编码到测试中.但其中一个确实是硬编码的,所以我可以:

  • 使用自定义子类填充它numpy.array;
  • 改变isinstance(other, SaneEqualityArray)isinstance(other, np.ndarray)jterrace的答案 ;
  • 在比较中总是将它用作LHS.

我在这方面的问题是:

  1. 它会起作用吗(我的意思是,这对我来说听起来不错,但也许一些棘手的边缘案例无法正确处理)?正如我所期望的那样,我的自定义对象总是在递归等式检查中最终成为LHS吗?
  2. 再次,有更好的方法(鉴于我至少得到一个真实numpy数组的结构).

编辑2:我试了一下,(看似)工作实现在这个答案中显示.

seb*_*erg 12

会有评论,但它太长了......

有趣的是,你不能==用来测试阵列是否与我建议你使用的相同np.testing.assert_array_equal.

  1. 检查dtype,形状等,
  2. 不失败的整齐的小数学(float('nan') == float('nan')) == False(Python的序列==具有忽略此的一个更有趣的方式有时,因为它使用PyObject_RichCompareBool它做了(NaN的不正确的)is快速检查(当然,这是完美的)的测试.. .
  3. 还有一个assert_allclose原因是,如果进行实际计算并且通常需要几乎相同的值,浮点相等性会变得非常棘手,因为这些值可能会依赖于硬件,也可能是随机的,这取决于您对它们的处理方式.

我几乎建议尝试使用pickle进行序列化,如果你想要这种疯狂嵌套的东西,但这是非常严格的(当然,第3点当然完全破坏了),例如你的数组的内存布局并不重要,但对它来说很重要序列化.


jte*_*ace 8

assertEqual函数将调用__eq__对象的方法,该方法应该递归复杂的数据类型.例外是numpy,它没有一个理智的__eq__方法.使用此问题numpy子类,您可以恢复相等行为的健全性:

import copy
import numpy
import unittest

class SaneEqualityArray(numpy.ndarray):
    def __eq__(self, other):
        return (isinstance(other, SaneEqualityArray) and
                self.shape == other.shape and
                numpy.ndarray.__eq__(self, other).all())

class TestAsserts(unittest.TestCase):

    def testAssert(self):
        tests = [
            [1, 2],
            {'foo': 2},
            [2, 'foo', {'d': 4}],
            SaneEqualityArray([1, 2]),
            {'foo': {'hey': SaneEqualityArray([2, 3])}},
            [{'foo': SaneEqualityArray([3, 4]), 'd': {'doo': 3}},
             SaneEqualityArray([5, 6]), 34]
        ]
        for t in tests:
            self.assertEqual(t, copy.deepcopy(t))

if __name__ == '__main__':
    unittest.main()
Run Code Online (Sandbox Code Playgroud)

这个测试通过.


Lev*_*sky 7

所以jterrace所说明的想法似乎对我有所改变:

class SaneEqualityArray(np.ndarray):
    def __eq__(self, other):
        return (isinstance(other, np.ndarray) and self.shape == other.shape and 
            np.allclose(self, other))
Run Code Online (Sandbox Code Playgroud)

就像我说的那样,带有这些对象的容器应该在等式检查的左侧.我SaneEqualityArray从现有的numpy.ndarrays 创建对象,如下所示:

SaneEqualityArray(my_array.shape, my_array.dtype, my_array)
Run Code Online (Sandbox Code Playgroud)

按照ndarray构造函数签名:

ndarray(shape, dtype=float, buffer=None, offset=0,
        strides=None, order=None)
Run Code Online (Sandbox Code Playgroud)

此类在测试套件中定义,仅用于测试目的.等式检查的RHS是被测试函数返回的实际对象,包含真实numpy.ndarray对象.

PS感谢到目前为止发布的两个答案的作者,他们都非常有帮助.如果有人发现这种方法有任何问题,我将非常感谢您的反馈.