Hbase FuzzyRowFilter如何跳跃键工作

Vik*_*del 10 hbase bigdata hfile

我知道模糊行滤波器首先将两个参数作为行键,第二个作为模糊逻辑.我从相应的java类FuzzyRowFilter中理解的是,过滤器评估当前行并尝试计算与模糊逻辑匹配的下一个更高的行键,并跳转非匹配键.

我无法理解以下事情

扫描如何跳转某些行键？它是否使用Get获取并比较当前行键.扫描如何知道下一个匹配的行键存在的位置？没有进行全扫描(如果它跳转)

你正确理解了一切.

对于那些来自网络搜索的人来说,这里有两个链接,解释了如何一般地利用行跳过以及如何在FuzzyRowFilter中完成它

如果过滤器知道它在最后一个键并且需要跳过:

过滤返回 SEEK_NEXT_USING_HINT
Region Server调用getNextCellHint,返回建议的内容Cell
Region Server执行完全相同的查找密钥的例程,就像它对第一个密钥所做的那样scan- 它检查可用的HFiles,检查相关的密钥是否存在
1. Region Server读取每个文件的"trailer"部分以获取元数据块的偏移量
2. 区域服务器读取Meta和FileInfo元数据块类型,以避免在不存在密钥的情况下从文件中读取二进制数据(布隆过滤器),文件是否太旧(Max SequenceId)或文件是否太新(时间范围)包含我们正在寻找的东西.在此处查看有关HFile格式的更多信息
3. 如果密钥位于HFile内,则Region Server使用DataBlock索引段来计算数据块位置的偏移量,并且具有相关密钥
4. 如果带有密钥的数据块发生在Region Server块缓存中,则跳过下一步
5. 从HFile读取数据块
6. 区域服务器最终逐个扫描密钥,直到它到达目标密钥
找到的键和可能的整行(取决于过滤器)将传递给过滤器代码
整个循环重复

归档时间：	12 年前
查看次数：	3549 次
最近记录：	11 年，11 月前

Mongo配置服务器可以在每个配置服务器中具有不同的用户权限吗？ 12

错误:Datanode正在运行但未在管理报告中显示 7

尽管超时时间较短，但是稳定数量的HBase请求几乎完全需要5000毫秒（成功）才能完成。不知道为什么 7

如何在不重新启动oozie作业的情况下重新加载oozie作业配置文件 6

MATLAB中的内存映射文件？ 6

HBase区域使用hbase.hregion.max.filesize自动拆分 6

启动HBASE，java.lang.ClassNotFoundException：org.apache.htrace.SamplerBuilder 5

为什么HBase计数操作这么慢 4

Python中缺少数据 0

为什么Hbase称为架构更少？ -2

为什么Google会在(1)之前提前; 他们的JSON回复？ 3940

停止EditText在Activity启动时获得焦点 2770

如何访问环境变量值？ 1878

用JavaScript比较两个日期 1791

如何按字典值对字典列表进行排序？ 1722

INNER JOIN,LEFT JOIN,RIGHT JOIN和FULL JOIN之间有什么区别？ 1602

你什么时候使用git rebase而不是git merge？ 1461

如何在JavaScript中将十进制转换为十六进制？ 1387

如何遍历C#中的所有枚举值？ 1359

有哪些常用的命名git分支实例的例子？ 1034