我目前正在探索Deequ库,并且试图了解是否有可能检查列组合的唯一性。
这段代码
.hasUniqueness(Seq("col1", "col2"), Check.IsOne))
Run Code Online (Sandbox Code Playgroud)
似乎分别计算每个列的唯一性(如果我错了,则更正)
谢谢
我想在我的管道中引入数据质量测试(空字段/最大-最小值/正则表达式等...),这将在数据登录到数据库之前消耗 kafta 主题测试数据。
我很难在 Deequ 和远大前程框架之间做出选择。Deequ 缺乏清晰的文档,但具有“异常检测”功能,可以将以前的扫描与当前的扫描进行比较。伟大的期望有非常好的和清晰的文档,因此开销更少。我认为这些框架都不是专门为数据流而设计的。
任何人都可以提供一些建议/其他框架建议吗?