我通过读取不同的格式(例如 CSV、Parquet、Avro、JSON)以 List < T > 的形式获取数据。
我想验证数据的主要特征,例如温度应在 95% 的时间内保持在范围内,其余时间列值可以为空或超出范围。
示例用例期望:
Expect_Column_Values_To_Be_Between(
columnName = "temprature",
minValue = 60,
maxValue = 75,
mostly = .95
)
Run Code Online (Sandbox Code Playgroud)
数据注释似乎部分解决了这个问题(缺少大部分功能),因为它在行级别而不是整个表(即对象级别)上工作。
[Range(60, 75, ErrorMessage = "Thermostat value {0} must be between {1} and {2}.")]
public int Temprature;
Run Code Online (Sandbox Code Playgroud)
Python 包参考: https: //github.com/great-expectations/.great_expectations包含类似的数据级别验证。
现在尝试寻求如何验证数据的指导(通过 .NET 中任何现有的等效库或通过创建新的帮助器类/扩展方法)