Was*_*sim 5 java cassandra cassandra-2.0 apache-spark
我想使用服务器端数据选择和使用cassandra
spark连接器进行过滤.事实上,我们有许多传感器每1秒发送一次值,我们对使用数月,日,小时等的这些数据聚合感兴趣,我提出了以下数据模型:
CREATE TABLE project1(
year int,
month int,
load_balancer int,
day int,
hour int,
estimation_time timestamp,
sensor_id int,
value double,
...
PRIMARY KEY ((year, month, load_balancer), day, hour, estimation_time, sensor_id)
Run Code Online (Sandbox Code Playgroud)
然后,我们有兴趣获得2014年12月的负载均衡器IN(0,1,2,3)的数据汇总.所以它们是4个不同的分区.
我们使用的是cassandra
spark连接器版本1.1.1,我们使用了一个按查询组合来获取所有值的平均值按小时汇总.
因此处理时间为4,341,390个元组,spark需要11分钟才能返回结果.现在的问题是我们正在使用5个节点,但是spark 只使用一个worker来执行任务.您能否建议更新查询或数据模型以提高性能?
归档时间: |
|
查看次数: |
935 次 |
最近记录: |