Saa*_*aar 5 lucene indexing hbase
我有一组需要索引的200M文档.每个文档都有一个自由文本和一组额外的稀疏元数据信息(100多列).
似乎自由文本索引的正确工具是Lucene,而结构化稀疏元数据的正确工具是HBase.
我需要查询数据并在自由文本搜索结果和结构化数据结果之间加入(例如,在其文本中获得所有具有短语"早安"的书籍于1980年首次发布).
我应该查看哪些工具/机制来加入结构化和未经检查的查询?结果可能包括数百万条记录(加入前后)
谢谢萨尔
除了 hbase 上的 lucene 之外,我还想到了一些事情:
1)Solr/Lucene可以存储多个字段,每个字段可以有不同的类型。因此,您的日期范围示例完全在 Solr 内是合理的。
2) 如果您正在谈论需要集群的真正庞大的数据集,请查看 ElasticSearch:http://www.elasticsearch.org/
3)莉莉试图回答你的确切问题http://www.lilyproject.org/lily/index.html
归档时间: |
|
查看次数: |
4070 次 |
最近记录: |