标签: druid

德鲁伊可以取代卡桑德拉吗?

我无法帮助认为Cassandra可以有效地服务的用例比德鲁伊更好.作为时间序列存储或键值,可以使用Druid编写查询以提取所需的数据.这里的论点更多的是围绕为德鲁伊辩护,而不是卡桑德拉.

除了卡桑德拉的快速写作,还有其他什么吗?Esp给出了德鲁伊的实时聚合/查询能力,它不会超过Cassandra.

对于一个可以回答的更直接的问题 - 德鲁伊没有提供像卡桑德拉那样的特征的超集,并且在使用德鲁伊时不会更好吗?对于所有用例?

cassandra druid

11
推荐指数
2
解决办法
7538
查看次数

德鲁伊可以取代hadoop吗?

德鲁伊用于实时和批处理.但它可以完全取代hadoop吗?如果不是为什么?至于hadoop对德鲁伊的优势是什么?我读过德鲁伊与hadoop一起使用.那么可以避免使用Hadoop吗?

hadoop druid

8
推荐指数
2
解决办法
2683
查看次数

是否有可能在德鲁伊有另一个时间戳作为维度?

是否有可能拥有带有2个(或多个)时间图的德鲁伊数据源?我知道德鲁伊是基于时间的数据库,我对这个概念没有任何问题,但我想添加另一个维度,我可以像时间戳一样工作

例如用户保留:度量肯定是指定到某个特定日期,但我还需要根据用户的注册日期创建同类群组,并将这些日期汇总到几周,几个月或过滤到特定时间段....

如果不支持该功能,是否有任何插件?有任何脏问题?

druid

7
推荐指数
2
解决办法
3191
查看次数

Apache Superset 是否支持加权平均?

我正在尝试使用 Apache Superset 创建一个仪表板,该仪表板将显示不同实体的 X/Y 平均速率,以便可以动态更改时间粒度。但是,我所拥有的原始数据是相关实体的每日 X 和 Y 总数。

如果我能得到一个折线图来显示 sum(X)/sum(Y) 作为它自己的指标,那么这将很简单,其中总和范围将随时间变化而变化,但这似乎不受支持.

在 SQLAlchemy 中创建一个函数来计算每日费率,然后将其用作原始数据也是一个不充分的解决方案,因为在不同的时间范围内取平均值将无法正确加权。

有没有我没有看到的解决方法?有没有办法使用 Druid 或其他一些工具来显示可变范围内的商数?

我目前最好的解决方案是为每个时间粒度(日、月、季度、年)设置不同的图表,但这非常不雅,我希望做得更好。

analytics superset druid apache-superset

7
推荐指数
1
解决办法
276
查看次数

将数据从mysql导入到德鲁伊

我一直在使用mysql进行所有数据存储和查询.但是现在表格大小已经变得非常高,有时需要几个小时才能得到结果.我已采取一切可能的措施,如优化查询和正确索引表.

所以我一直在考虑使用德鲁伊.我之前没有和德鲁伊合作过.我想我必须将所有表格,数据从mysql导入到德鲁伊.我无法理解我应该从哪里开始.所以,如果有人帮助我提供任何指导,我将非常感激.提前致谢.

mysql druid

6
推荐指数
1
解决办法
3670
查看次数

使用不同的过滤器将两个查询相交

我使用德鲁伊来监控我网站上的事件.数据可表示如下:

event_id   |  country  |  user_id  |  event_type  
================================================
1          |  USA      |  id1      |  visit
2          |  USA      |  id2      |  visit
1          |  Canada   |  id3      |  visit
3          |  USA      |  id1      |  click
1          |  Canada   |  id4      |  visit
3          |  Canada   |  id3      |  click
3          |  USA      |  id2      |  click
Run Code Online (Sandbox Code Playgroud)

我还定义了一个用于计算事件的聚合.我向Druid发出查询,为event_id = 3提供数据,如下所示:

请注意,访问与event_id无关.

country   |  visits    | clicks  
===============================    
USA       |  4         |  2
Canada    |  3         |  2
Run Code Online (Sandbox Code Playgroud)

目前,我使用两个不同过滤器的topNResults查询:

  1. event_type …

druid

6
推荐指数
1
解决办法
700
查看次数

Apache Druid sql查询转换为基于json的查询

我试图将以下德鲁伊sql查询转换为德鲁伊json查询,因为我有一个列是多值维度,德鲁伊不支持sql样式查询.

我的SQL查询:

SELECT date_dt, source, type_labels, COUNT(DISTINCT unique_p_hll)
  FROM "test"
WHERE 
  type_labels = 'z' AND
  (a_id IN ('a', 'b', 'c') OR b_id IN ('m', 'n', 'p'))
GROUP BY date_dt, source, type_labels;
Run Code Online (Sandbox Code Playgroud)

unique_p_hll 是一个带独特的hll列.

我提出的德鲁伊json查询如下:

{
  "queryType": "groupBy",
  "dataSource": "test",
  "granularity": "day",
  "dimensions": ["source", "type_labels"],
  "limitSpec": {},
  "filter": {
    "type": "and",
    "fields": [
      { "type": "selector", "dimension": "type_labels", "value": "z" },   
      { "type": "or", "fields": [
        { "type": "in", "dimension": "a_id", "values": ["a", "b", "c"] },
        { "type": "in", "dimension": "b_id", …
Run Code Online (Sandbox Code Playgroud)

druid

6
推荐指数
1
解决办法
533
查看次数

如何将新列添加到现有的德鲁伊架构中?

我创建了一个架构,并向德鲁伊架构添加了 1TB 数据。然后升级了日志文件版本并添加了新的两列。然后我想将该数据添加到德鲁伊模式。但还不能。

druid

6
推荐指数
1
解决办法
661
查看次数

GCP Dataproc的德鲁伊可用alpha。如何加载细分?

描述druid支持的dataproc页面没有关于如何将数据加载到集群的章节。我一直在尝试使用GC Storage进行此操作,但不知道如何为它建立有效的规范。我希望“ firehose”部分中有一些Google特定于存储桶的引用,但是没有示例如何执行此操作。

直接在GCP dataproc上运行的将数据加载到Druid的方法是什么?

druid google-cloud-platform google-cloud-dataproc

6
推荐指数
1
解决办法
142
查看次数

从java应用程序查询德鲁伊

我是德鲁伊的新手。我想从我的 java 应用程序查询远程德鲁伊集群。我在 druid-user google group 中读到我们可以使用 io.druid.client.DirectDruidClient 。有人可以帮助我或指出带有相同示例的资源吗?

druid

5
推荐指数
1
解决办法
3478
查看次数