我正在尝试比较 HBase 中的两个不同表,以便我可以自动验证我们用来在 HBase 中移动数据的一些 ETL 过程。在 HBase 中比较两个表的最佳方法是什么?
我的用例如下:
我想要做的是创建一张表,作为我的预期输出。该表将包含我期望通过对输入文件执行团队代码来创建的所有数据。然后我将采用实际输出表和预期输出表之间的差异来验证被测组件的完整性。
我不知道任何开箱即用的东西,但你可以编写一个多表映射/归约。
映射器只会从每个表中发出键(值是所有 hbase 键值加上表名称)。reducer 可以确保每个键有 2 条记录并比较键值。当只有一个键时,它可以看到哪个表不同步
| 归档时间: |
|
| 查看次数: |
2516 次 |
| 最近记录: |