Hen*_*rik 7 hbase filter database-scan
我们想用两个QualifierFilters过滤HBase表上的扫描.意味着我们只希望获得表格的行,这些行具有某个列'col_A' 和(!)某个其他列'col_B'.
我们目前的方法如下:
FilterList filterList = new FilterList(FilterList.Operator.MUST_PASS_ALL);
Filter filter1 = new QualifierFilter(CompareOp.EQUAL, new BinaryComparator("col_A".getBytes()));
filterList.addFilter(filter1);
Filter filter2 = new QualifierFilter(CompareOp.EQUAL, new BinaryComparator("col_B".getBytes()));
filterList.addFilter(filter2);
Scan scan = new Scan();
scan.setFilter(filterList);
...
Run Code Online (Sandbox Code Playgroud)
尽管HBase表中有多行同时包含列'col_A'和'col_B',但ResultScanner不会返回此扫描的任何结果.
如果我们只将scan1应用于扫描,一切正常,我们会得到所有'col_A'的行.如果我们只将filter2应用于扫描,则它是相同的.我们确实获得了所有包含'col_B'的行.
只有当我们合并这两个过滤器时,我们才会得到任何结果.
只有从表中获得col_A AND col_B的行的正确方法是什么?
您可以通过定义以下过滤器来实现此目的:
List<Filter> filters = new ArrayList<Filter>(2);
byte[] colfam = Bytes.toBytes("c");
byte[] fakeValue = Bytes.toBytes("DOESNOTEXIST");
byte[] colA = Bytes.toBytes("col_A");
byte[] colB = Bytes.toBytes("col_B");
SingleColumnValueFilter filter1 =
new SingleColumnValueFilter(colfam, colA , CompareOp.NOT_EQUAL, fakeValue);
filter1.setFilterIfMissing(true);
filters.add(filter1);
SingleColumnValueFilter filter2 =
new SingleColumnValueFilter(colfam, colB, CompareOp.NOT_EQUAL, fakeValue);
filter2.setFilterIfMissing(true);
filters.add(filter2);
FilterList filterList = new FilterList(FilterList.Operator.MUST_PASS_ALL, filters);
Scan scan = new Scan();
scan.setFilter(filterList);
Run Code Online (Sandbox Code Playgroud)
这里的想法是为SingleColumnValueFilter
您要查找的每一列定义一个,每个列都有一个假值和一个CompareOp.NOT_EQUAL
运算符。即:这样的 SingleColumnValueFilter 将返回给定名称的所有列。
来源:http ://mapredit.blogspot.com/2012/05/using-filters-in-hbase-to-match-two.html