单元测试大数据集？

Question

对大型数据集进行单元测试的最佳方法是什么？我维护的一些遗留代码具有一百个或更多成员的结构; 我们正在处理的代码的其他部分创建或分析数百个样本的数据集.

到目前为止,我发现的最佳方法是从磁盘序列化结构或数据集,执行测试中的操作,将结果序列化到磁盘,然后将包含序列化结果的文件与包含预期结果的文件区分开来.这不是非常快,它违反了"不接触磁盘"的单元测试原则.但是,我能想到的唯一选择(编写代码来初始化和测试数百个成员和数据点)似乎无比乏味.

还有更好的解决方案吗？

Answer 1

这仍然是一个可行的方法。尽管如此，我会将其归类为功能测试，或者只是不是纯粹的单元测试。一个好的单元测试是对那些记录进行抽样，这些记录可以很好地分布您可能遇到的边缘情况，并将其写下来。然后，您将进行最后的“验收”或“功能”测试，并对所有数据进行批量测试。

我在测试大量数据时使用了这种方法，我发现它工作得很好，因为小单元是可维护的，然后我知道批量测试是有效的，而且都是自动的。