结构化和非结构化索引 - Lucene和Hbase

Question

我有一组需要索引的200M文档.每个文档都有一个自由文本和一组额外的稀疏元数据信息(100多列).

似乎自由文本索引的正确工具是Lucene,而结构化稀疏元数据的正确工具是HBase.

我需要查询数据并在自由文本搜索结果和结构化数据结果之间加入(例如,在其文本中获得所有具有短语"早安"的书籍于1980年首次发布).

我应该查看哪些工具/机制来加入结构化和未经检查的查询？结果可能包括数百万条记录(加入前后)

谢谢萨尔

Answer 1

除了 hbase 上的 lucene 之外，我还想到了一些事情：

1）Solr/Lucene可以存储多个字段，每个字段可以有不同的类型。因此，您的日期范围示例完全在 Solr 内是合理的。

2) 如果您正在谈论需要集群的真正庞大的数据集，请查看 ElasticSearch：http://www.elasticsearch.org/