Lucene - 它是巨大指数的正确答案吗?

Saa*_*aar 8 lucene

Lucene是否能够为每个50K的500M文本文档编制索引?

对于单项搜索和10项搜索,可以预期这样的指数会有什么表现?

我应该担心并直接转移到分布式索引环境吗?

萨尔

Ste*_*cke 7

是的,根据以下文章,Lucene应该能够解决这个问题:http: //www.lucidimagination.com/content/scaling-lucene-and-solr

这是一个引用:

根据多种因素,单台机器可轻松托管5到8,000万份文档的Lucene/Solr索引,而分布式解决方案可在数十亿份文档中提供亚秒级搜索响应时间.

本文深入探讨了扩展到多个服务器的问题.因此,如果需要,您可以从小规模开始扩展.

关于Lucene表现的一个很好的资源是Mike McCandless的博客,他积极参与Lucene的开发:http://blog.mikemccandless.com/ 他经常使用维基百科的内容(25 GB)作为Lucene的测试输入.

此外,Twitter的实时搜索现在可以用Lucene实现(参见http://engineering.twitter.com/2010/10/twitters-new-search-architecture.html).

但是,我想知道你提供的数字是否正确:5亿个文件x 50 KB = ~23 TB - 你真的有那么多数据吗?