Solr索引中的重复项 - 项目添加两次或更多次

Mar*_* Ek 3 solr solrnet

考虑一下Solr指数约为.2000万件物品.索引这些项目时,它们会批量添加到索引中.

所有这些项目中约有5%被索引两次或更多次,因此导致重复问题.

如果您检查日志,您实际上可以看到这些项目确实添加了两次(或更多).它们之间通常间隔2-3分钟,而它们之间也有其他物品.

触发索引的Web服务器位于负载平衡环境(2个Web服务器)中.但是,执行实际索引的Web服务器是单个Web服务器.

以下是solrconfig.xml中的一些配置元素:

<indexDefaults>
.....
<mergeFactor>10</mergeFactor>
<ramBufferSizeMB>128</ramBufferSizeMB>
<maxFieldLength>10000</maxFieldLength>
<writeLockTimeout>1000</writeLockTimeout>
<commitLockTimeout>10000</commitLockTimeout>

<mergePolicy class="org.apache.lucene.index.LogByteSizeMergePolicy">
<double name="maxMergeMB">1024.0</double>
</mergePolicy>

<mainIndex>
<useCompoundFile>false</useCompoundFile>
<ramBufferSizeMB>128</ramBufferSizeMB>
<mergeFactor>10</mergeFactor>
Run Code Online (Sandbox Code Playgroud)

我正在使用Solr 1.4.1和Tomcat 7.0.16.我也在使用最新的SolrNET库.

什么可能导致这种重复问题?感谢所有输入!

Uma*_*mar 6

要完全回答您的问题,我应该能够了解架构.模式中有一个唯一的id字段,它更像db中的唯一键,确保文档的唯一标识符成为唯一键,然后重写将覆盖重复项以保留一个值.