Guy*_*sei 11 lucene search full-text-search full-text-indexing
存储和搜索的内部包含哪些内容?如同细节一样?
例如,我有一百万个文档与一个术语匹配,一百万个其他文档与一个AND查询的第二个术语相匹配.lucene如何快速地为我提供顶级k?
它是否按照每个术语增加doc IDS的顺序存储文档?然后,当两个术语的文档必须相交时,它通过在一次传递中递增地迭代它们来查找两个集合中的第一个共同k个文档.
或者,它是否使用较大的文档数组中的简单无序哈希集来查找公共文档?
或者是否使用这种(或可能更多)类型的交叉点策略取决于用户提出的文档数量,与个别术语匹配的那些因素以及其他因素?
任何可以指出文档数组合并的细节的文章将不胜感激.
编辑:感谢信息人员.现在有道理.跳过列表可以发挥魔力.我将深入挖掘它以获得清晰的理解.
| 归档时间: |
|
| 查看次数: |
1751 次 |
| 最近记录: |