小编Guy*_*sei的帖子

lucene如何快速计算文件的交集?

存储和搜索的内部包含哪些内容?如同细节一样?

例如,我有一百万个文档与一个术语匹配,一百万个其他文档与一个AND查询的第二个术语相匹配.lucene如何快速地为我提供顶级k?

它是否按照每个术语增加doc IDS的顺序存储文档?然后,当两个术语的文档必须相交时,它通过在一次传递中递增地迭代它们来查找两个集合中的第一个共同k个文档.

或者,它是否使用较大的文档数组中的简单无序哈希集来查找公共文档?

或者是否使用这种(或可能更多)类型的交叉点策略取决于用户提出的文档数量,与个别术语匹配的那些因素以及其他因素?

任何可以指出文档数组合并的细节的文章将不胜感激.

编辑:感谢信息人员.现在有道理.跳过列表可以发挥魔力.我将深入挖掘它以获得清晰的理解.

lucene search full-text-search full-text-indexing

11
推荐指数
2
解决办法
1751
查看次数

崩溃后Elasticsearch无法恢复

跑出磁盘空间,搞砸了弹性搜索碎片.现在有三个节点为红色,两个节点已恢复,状态为黄色.ES在CPU上运行150%,在内存上运行很高,试图恢复它们.但看起来有一些版本匹配冲突.

我清理了磁盘空间并删除了分片的translog以停止从translog加载.但令人惊讶的是,translog再次被创建!

请分享如何阻止此尝试从translog恢复并恢复正常索引操作.我不想删除分片数据.

[2014-10-31 03:11:43,742][WARN ][cluster.action.shard     ] [Angela Cairn] [western_europe][4] sending failed shard for [western_europe][4], node[x5M73qVXS5eZIBdz40boEg], [P], s[INITIALIZING], indexUUID [wy-tIJqdQiynz5SGQ2IrGA], reason [Failed to start shard, message [IndexShardGatewayRecoveryException[[western_europe][4] failed to recover shard]; nested: ElasticsearchException[failed to read [tweet][527924645014818817]]; nested: ElasticsearchIllegalArgumentException[No version type match [101]]; ]]
[2014-10-31 03:11:43,742][WARN ][cluster.action.shard     ] [Angela Cairn] [western_europe][4] received shard failed for [western_europe][4], node[x5M73qVXS5eZIBdz40boEg], [P], s[INITIALIZING], indexUUID [wy-tIJqdQiynz5SGQ2IrGA], reason [Failed to start shard, message [IndexShardGatewayRecoveryException[[western_europe][4] failed to recover shard]; nested: ElasticsearchException[failed to read [tweet][527924645014818817]]; nested: ElasticsearchIllegalArgumentException[No version type …
Run Code Online (Sandbox Code Playgroud)

recovery elasticsearch

5
推荐指数
1
解决办法
4545
查看次数