结构化和非结构化索引 - Lucene和Hbase

Saa*_*aar 5 lucene indexing hbase

我有一组需要索引的200M文档.每个文档都有一个自由文本和一组额外的稀疏元数据信息(100多列).

似乎自由文本索引的正确工具是Lucene,而结构化稀疏元数据的正确工具是HBase.

我需要查询数据并在自由文本搜索结果和结构化数据结果之间加入(例如,在其文本中获得所有具有短语"早安"的书籍于1980年首次发布).

我应该查看哪些工具/机制来加入结构化和未经检查的查询?结果可能包括数百万条记录(加入前后)

谢谢萨尔

Dav*_*vid 3

除了 hbase 上的 lucene 之外,我还想到了一些事情:

1)Solr/Lucene可以存储多个字段,每个字段可以有不同的类型。因此,您的日期范围示例完全在 Solr 内是合理的。

2) 如果您正在谈论需要集群的真正庞大的数据集,请查看 ElasticSearch:http://www.elasticsearch.org/

3)莉莉试图回答你的确切问题http://www.lilyproject.org/lily/index.html