elasticsearch vs hbase/hadoop用于实时统计

use*_*226 9 hadoop hbase bigdata hdfs elasticsearch

我每周登录数百万个小日志文件:

  • 用于数据挖掘的即席查询
  • 加入,比较,过滤和计算值
  • 使用python进行了许多全文搜索
  • 每天都会有数百万个文档运行此操作

我的第一个想法是将所有文档放在HBase/HDFS中并运行Hadoop作业生成统计结果.

问题是:一些结果必须接近实时.

因此,经过一些研究后我发现了ElasticSearch,现在我正在考虑转移数百万个文档并使用DSL-Queries生成统计结果.

这是一个好主意吗?ElasticSearch似乎很容易处理数百万/数十亿的文档.

Jas*_*per 10