Solr:发布的文件数不等于maxDoc

Tim*_*ter 4 indexing solr

如果这个问题已经在某个地方得到解答,我会提前道歉 - 我无法找到它.

我对Solr比较陌生,并且一直遵循本教程给出的指令,使用默认的SimplePostTool从命令行索引我的数据.我目前正在测试中使用Solr 4.0.

首先,我通过查询删除索引中的所有内容.然后我将SimplePostTool指向几个目录并索引数万个文件.就我而言,目前,每个XML文件都是一个单独的文档.某些文档可能具有相同的uniqueKey ID.如果重要,XML文档大小范围为4-60kB.

SimplePostTool在完成时返回,并说26,541个文件被编入索引.然后我查看Admin collection1页面,看看Num Docs = 20,985和Max Doc = 22,921.

我已经看过其他帖子讨论Num Docs和Max Doc之间的差异(我觉得我完全理解覆盖行为).我的问题是为什么SimplePostTool报告的索引文档数与Solr Admin页面给出的Max Doc不匹配?

Est*_*los 5

你有不同数量的numDocs和maxDoc的原因:

numDocs表示索引中可搜索文档的数量(并且将大于XML文件的数量,因为某些文件包含多个文件).maxDoc可能更大,因为maxDoc计数包括尚未从索引中删除的逻辑删除文档.您可以根据需要反复重复发布示例XML文件,并且numDocs永远不会增加,因为新文档将不断替换旧文档.来自:Solr官方教程.这适用于旧版本.

您可以通过优化索引来删除逻辑删除的文件 - >