Apache Drill vs Spark

Mat*_*tzz 13 hadoop bigdata apache-spark apache-drill

我对Apache Spark和Spark-SQL有一些了解.最近我发现了Apache Drill项目.你能描述一下他们之间最显着的优势/差异吗?我已经阅读过 Fast Hadoop Analytics(Cloudera Impala vs Spark/Shark vs Apache Drill), 但这个话题对我来说还不清楚.

小智 21

这是我遇到的一篇文章,讨论了一些SQL技术:http://www.zdnet.com/article/sql-and-hadoop-its-complicated/

Drill在用户体验和架构方面根本不同.例如:

  • Drill是一个无架构的查询引擎.例如,您可以将其指向JSON或Parquet日志文件的目录(在本地机器上,NFS共享,S3,HDFS,MapR-FS等)并运行查询.您不必加载数据,创建和管理模式或预处理数据.
  • Drill在内部使用JSON文档模型,允许它查询任何结构的数据.许多现代数据都很复杂,这意味着记录可以包含嵌套结构和数组,字段名称实际上可以编码诸如时间戳或网页URL之类的值.Drill允许普通的BI工具无缝地对这些数据进行操作,而无需事先对数据进行平展.
  • Drill适用于各种非关系数据存储,包括Hadoop,NoSQL数据库(MongoDB,HBase)和云存储.将添加其他数据存储.

Drill 1.0刚刚发布(2015年5月19日).您可以轻松地将其下载到您的笔记本电脑上并使用它而无需任何基础设施(Hadoop,NoSQL等).