我无法帮助认为Cassandra可以有效地服务的用例比德鲁伊更好.作为时间序列存储或键值,可以使用Druid编写查询以提取所需的数据.这里的论点更多的是围绕为德鲁伊辩护,而不是卡桑德拉.
除了卡桑德拉的快速写作,还有其他什么吗?Esp给出了德鲁伊的实时聚合/查询能力,它不会超过Cassandra.
对于一个可以回答的更直接的问题 - 德鲁伊没有提供像卡桑德拉那样的特征的超集,并且在使用德鲁伊时不会更好吗?对于所有用例?
德鲁伊用于实时和批处理.但它可以完全取代hadoop吗?如果不是为什么?至于hadoop对德鲁伊的优势是什么?我读过德鲁伊与hadoop一起使用.那么可以避免使用Hadoop吗?
是否有可能拥有带有2个(或多个)时间图的德鲁伊数据源?我知道德鲁伊是基于时间的数据库,我对这个概念没有任何问题,但我想添加另一个维度,我可以像时间戳一样工作
例如用户保留:度量肯定是指定到某个特定日期,但我还需要根据用户的注册日期创建同类群组,并将这些日期汇总到几周,几个月或过滤到特定时间段....
如果不支持该功能,是否有任何插件?有任何脏问题?
我正在尝试使用 Apache Superset 创建一个仪表板,该仪表板将显示不同实体的 X/Y 平均速率,以便可以动态更改时间粒度。但是,我所拥有的原始数据是相关实体的每日 X 和 Y 总数。
如果我能得到一个折线图来显示 sum(X)/sum(Y) 作为它自己的指标,那么这将很简单,其中总和范围将随时间变化而变化,但这似乎不受支持.
在 SQLAlchemy 中创建一个函数来计算每日费率,然后将其用作原始数据也是一个不充分的解决方案,因为在不同的时间范围内取平均值将无法正确加权。
有没有我没有看到的解决方法?有没有办法使用 Druid 或其他一些工具来显示可变范围内的商数?
我目前最好的解决方案是为每个时间粒度(日、月、季度、年)设置不同的图表,但这非常不雅,我希望做得更好。
我一直在使用mysql进行所有数据存储和查询.但是现在表格大小已经变得非常高,有时需要几个小时才能得到结果.我已采取一切可能的措施,如优化查询和正确索引表.
所以我一直在考虑使用德鲁伊.我之前没有和德鲁伊合作过.我想我必须将所有表格,数据从mysql导入到德鲁伊.我无法理解我应该从哪里开始.所以,如果有人帮助我提供任何指导,我将非常感激.提前致谢.
我使用德鲁伊来监控我网站上的事件.数据可表示如下:
event_id | country | user_id | event_type
================================================
1 | USA | id1 | visit
2 | USA | id2 | visit
1 | Canada | id3 | visit
3 | USA | id1 | click
1 | Canada | id4 | visit
3 | Canada | id3 | click
3 | USA | id2 | click
Run Code Online (Sandbox Code Playgroud)
我还定义了一个用于计算事件的聚合.我向Druid发出查询,为event_id = 3提供数据,如下所示:
请注意,访问与event_id无关.
country | visits | clicks
===============================
USA | 4 | 2
Canada | 3 | 2
Run Code Online (Sandbox Code Playgroud)
目前,我使用两个不同过滤器的topNResults查询:
我试图将以下德鲁伊sql查询转换为德鲁伊json查询,因为我有一个列是多值维度,德鲁伊不支持sql样式查询.
我的SQL查询:
SELECT date_dt, source, type_labels, COUNT(DISTINCT unique_p_hll)
FROM "test"
WHERE
type_labels = 'z' AND
(a_id IN ('a', 'b', 'c') OR b_id IN ('m', 'n', 'p'))
GROUP BY date_dt, source, type_labels;
Run Code Online (Sandbox Code Playgroud)
unique_p_hll 是一个带独特的hll列.
我提出的德鲁伊json查询如下:
{
"queryType": "groupBy",
"dataSource": "test",
"granularity": "day",
"dimensions": ["source", "type_labels"],
"limitSpec": {},
"filter": {
"type": "and",
"fields": [
{ "type": "selector", "dimension": "type_labels", "value": "z" },
{ "type": "or", "fields": [
{ "type": "in", "dimension": "a_id", "values": ["a", "b", "c"] },
{ "type": "in", "dimension": "b_id", …Run Code Online (Sandbox Code Playgroud) 我创建了一个架构,并向德鲁伊架构添加了 1TB 数据。然后升级了日志文件版本并添加了新的两列。然后我想将该数据添加到德鲁伊模式。但还不能。
描述druid支持的dataproc页面没有关于如何将数据加载到集群的章节。我一直在尝试使用GC Storage进行此操作,但不知道如何为它建立有效的规范。我希望“ firehose”部分中有一些Google特定于存储桶的引用,但是没有示例如何执行此操作。
直接在GCP dataproc上运行的将数据加载到Druid的方法是什么?
我是德鲁伊的新手。我想从我的 java 应用程序查询远程德鲁伊集群。我在 druid-user google group 中读到我们可以使用 io.druid.client.DirectDruidClient 。有人可以帮助我或指出带有相同示例的资源吗?