Kha*_*han 3 stream-processing bigdata batch-processing apache-kafka lambda-architecture
如果Kappa-Architecture直接对流进行分析而不是将数据分成两个流,那么数据存储在哪里,就像Kafka这样的消息系统?或者它可以在数据库中重新计算?
与使用流处理引擎重新计算以进行批量分析相比,单独的批处理层是否更快?
"一个非常简单的例子是当应用于实时数据和历史数据的算法是相同的时候.然后使用相同的代码库来处理历史和实时数据显然是非常有益的,因此使用Kappa架构实现用例"."现在,用于处理历史数据和实时数据的算法并不总是相同的.在某些情况下,批处理算法可以优化,因为它可以访问完整的历史数据集,然后优于实现实时算法.在这里,在Lambda和Kappa之间进行选择成为支持批量执行性能而不是代码库简单性的选择."最后,还有更复杂的用例,即使实时和批处理算法的输出也不同.例如,机器学习应用程序,其中批处理模型的生成需要如此多的时间和资源,最好实时可实现的结果是该模型的计算和近似更新.在这种情况下,批量和实时层不能合并,并且必须使用Lambda架构".
| 归档时间: |
|
| 查看次数: |
1571 次 |
| 最近记录: |