小编Tri*_*egi的帖子

Spark Streaming包含大量用于RDD分析处理的流和模型

我们正在创建一个带有火花流的实时流处理系统,该系统使用大量(数百万)分析模型应用于许多不同类型的传入度量数据流(超过100000)中的RDD.此流是原始流或转换流.每个RDD都必须通过分析模型进行处理.由于我们不知道哪个Spark群集节点将处理来自不同流的特定RDD,因此我们需要在每个Spark计算节点上使所有这些模型可用.这将在每个火花节点产生巨大的开销.我们正在考虑使用内存数据网格在spark计算节点上提供这些模型.这是正确的方法吗?

要么

我们应该避免一起使用Spark流,只需使用像Redis(使用pub/sub)这样的内存数据网格来解决这个问题.在这种情况下,我们将数据流式传输到包含特定模型的特定Redis节点.当然我们必须做所有的装箱/窗户等.

请建议.

redis apache-spark

5
推荐指数
1
解决办法
2963
查看次数

标签 统计

apache-spark ×1

redis ×1