使用Solr查询HBase

sta*_*lee 1 solr hbase data-warehouse

我有一个数据仓库问题,需要查询大型数据集.为了这个例子,我们可以说一个典型的州有3000万用户,每个用户都有活动统计数据.理想情况下,我可以购买数据仓库工具(Vertica,Infobright等...),但这不在卡片或预算中.

现在我正在考虑使用Solr来查询HBase.虽然我相信HBase可以扩展到需求,但我担心Solr.它被优化为搜索引擎,即结果的第一页在最后一页之前返回,并且不支持像数据库游标这样的东西.到目前为止的测试表明,从Solr获得大量结果的速度比我想要的慢.例如,比较查询将在一分钟内完成社区版Infobright的一半可用用户(最终返回500 MB数据)的查询,对Solr来说需要12分钟.

Solr以外的其他东西更适合查询这些数据吗?是否有任何优化可以帮助批量数据输入和输出?

RAT*_*ora 5

我知道这有点晚了但......

根据您的搜索要求,Solr可能是一个不错的选择.请记住,您很可能不需要为HBase中的所有内容编制索引.您可以选择某些字段吗?部分文字?如果你已经将它存储在HBase中,你肯定不需要将这些东西存储在Solr中.

Solr是一个优秀的二级索引系统,可以放在HBase之上,如果您需要,Solr还具有一些出色的文本分析功能.

您还应该看看Solr的主要竞争对手之一ElasticSearch.