标签: apache-drill

快速Hadoop分析(Cloudera Impala vs Spark/Shark vs Apache Drill)

我想对HDFS中的数据进行一些"近实时"数据分析(类似OLAP).
我的研究表明,与Apache Hive相比,上述三个框架报告了显着的性能提升.有没有人对其中任何一个有一些实际经验？不仅涉及性能,还涉及稳定性？

bigdata impala apache-spark apache-drill

use*_*380

2015 06-05

41
推荐指数

1
解决办法

3万
查看次数

将JSON对象的文件转换为Parquet文件

动机:我想将数据加载到Apache Drill中.我知道Drill可以处理JSON输入,但我想看看它如何在Parquet数据上执行.

有没有办法在没有先将数据加载到Hive等中然后使用其中一个Parquet连接器生成输出文件的情况下执行此操作？

apache json parquet apache-drill

dan*_*ara

2015 06-05

17
推荐指数

2
解决办法

1万
查看次数

apache钻不好表现

我尝试使用apache-drill运行简单的连接聚合查询,速度不是很好.我的测试查询是:

SELECT p.Product_Category, SUM(f.sales)
FROM facts f
JOIN Product p on f.pkey = p.pkey
GROUP BY p.Product_Category

Run Code Online (Sandbox Code Playgroud)

事实有大约422,000行,产品有600行.分组返回4行.

首先,我在SqlServer上测试了这个查询,并在大约150ms内得到了一个结果.

使用钻取我首先尝试直接连接到SqlServer并运行查询,但这很慢(大约5秒).

然后我尝试将表保存到json文件并从中读取,但这甚至更慢,所以我尝试了镶木地板文件.

我在第一次运行中得到了结果,大约3秒钟.下次运行大约900ms,然后稳定在大约500ms.

从阅读来看,这没有任何意义,钻孔应该更快!我试过"REFRESH TABLE METADATA",但速度没有变化.

我通过钻取命令行在Windows上运行它.

如果我需要一些额外的配置或什么的任何想法？

谢谢!

performance parquet apache-drill

Imb*_* M.

2019 06-30

15
推荐指数

1
解决办法

2124
查看次数

一个用Java访问多个数据源的SQL查询(来自oracle,excel,sql server)

我需要开发一个应用程序,可以Oracle, Excel, Microsoft Sql Server使用一个来从多个数据源(等等)获取数据SQL query.例如:

 SELECT o.employeeId, count(o.orderId) 
    FROM employees@excel e. customers@microsoftsql c, orders@oracle o 
    WHERE o.employeeId = e.employeeId and o.customerId = c.customerId 
    GROUP BY o.employeeId;

Run Code Online (Sandbox Code Playgroud)

这个sql和数据源必须由java程序动态更改.我的客户希望在我的应用程序的Web界面sql-like query中同时编写和运行不同的数据库和存储group by, having, count, sum.其他要求是性能和重量轻.

我找到了这种方式(我看到了什么缺点,如果我错了,请修理我):

Apache Spark(缺点:重型解决方案,对于BigData更好,如果你需要获取最新的信息而不在Spark中缓存它,则会很慢),
在SQL Server分布式查询(甲骨文的数据库链接,微软SQL服务器的链接服务器,Excel的电源查询) - 缺点:与Excel的工作问题,通过动态java程序和问题变化的数据源,
Prestodb(缺点:重型解决方案,对BigData更好),
Apache Drill(缺点:非常年轻的解决方案,一些问题,没有最新的odbc驱动程序和工作时的一些错误),
Apache Calcite(Apache Drill使用的ligth框架, 缺点:非常年轻的解决方案),
手动从数据源加入(缺点:开发正确连接的很多工作,在结果集中"分组",找到最佳执行计划等)

也许,你知道其他任何方式(使用 …

java sql oracle apache-spark-sql apache-drill

Via*_*nin

2016 01-22

14
推荐指数

2
解决办法

5742
查看次数

Apache Drill vs Spark

我对Apache Spark和Spark-SQL有一些了解.最近我发现了Apache Drill项目.你能描述一下他们之间最显着的优势/差异吗？我已经阅读过 Fast Hadoop Analytics(Cloudera Impala vs Spark/Shark vs Apache Drill), 但这个话题对我来说还不清楚.

hadoop bigdata apache-spark apache-drill

Mat*_*tzz

2017 05-23

13
推荐指数

1
解决办法

8888
查看次数

如何在Apache Drill中实现Mongo存储插件的INNER JOINS(下推)优化？

我想扩展Apache Drill Mongo存储插件来推送INNER JOIN.因此我想重写INNER JOIN为mongo聚合管道.

我们如何开始在Apache Drill中实现重写.

这是一个SQL示例:

SELECT *
FROM `mymongo.db`.`test` `test`
  INNER JOIN `mymongo.db`.`test2` `test2`
  ON (`test`.`id` = `test2`.`fk`)
WHERE `test2`.`date` = '09.05.2017'

Run Code Online (Sandbox Code Playgroud)

我已经找到了倒推的WHERE在蒙戈存储插件条款.但我仍然在努力做同样的事情INNER JOINS.构造器public class MongoPushDownInnerJoinScan extends StoragePluginOptimizerRule看起来怎么样？我必须实现哪个MongoGroupScan(AbstractGroupScan)的等价物？任何帮助将非常感谢.

java odbc jdbc mongodb apache-drill

Den*_*fel

lucky-day

13
推荐指数

1
解决办法

213
查看次数