考虑一下Solr指数约为.2000万件物品.索引这些项目时,它们会批量添加到索引中.
所有这些项目中约有5%被索引两次或更多次,因此导致重复问题.
如果您检查日志,您实际上可以看到这些项目确实添加了两次(或更多).它们之间通常间隔2-3分钟,而它们之间也有其他物品.
触发索引的Web服务器位于负载平衡环境(2个Web服务器)中.但是,执行实际索引的Web服务器是单个Web服务器.
以下是solrconfig.xml中的一些配置元素:
<indexDefaults>
.....
<mergeFactor>10</mergeFactor>
<ramBufferSizeMB>128</ramBufferSizeMB>
<maxFieldLength>10000</maxFieldLength>
<writeLockTimeout>1000</writeLockTimeout>
<commitLockTimeout>10000</commitLockTimeout>
<mergePolicy class="org.apache.lucene.index.LogByteSizeMergePolicy">
<double name="maxMergeMB">1024.0</double>
</mergePolicy>
<mainIndex>
<useCompoundFile>false</useCompoundFile>
<ramBufferSizeMB>128</ramBufferSizeMB>
<mergeFactor>10</mergeFactor>
Run Code Online (Sandbox Code Playgroud)
我正在使用Solr 1.4.1和Tomcat 7.0.16.我也在使用最新的SolrNET库.
什么可能导致这种重复问题?感谢所有输入!