如何在其整个生命周期中加入另一个流收集的所有数据的火花实时流?

Cla*_*dro 6 apache-spark amazon-kinesis spark-streaming pyspark apache-spark-2.0

我有两个火花流,第一个是与产品相关的数据:它们对供应商的价格,货币,它们的描述,供应商ID.这些数据由类别丰富,通过对描述的分析和以美元计算的价格来猜测.然后将它们保存在镶木地板数据集中.

第二个流包含拍卖这些产品的数据,然后是销售成本和日期.

鉴于产品今天可以到达第一个流并且在一年内出售,我如何将第二个流加入第一个流的镶木地板数据集中包含的所有历史记录?

结果应该是每个价格范围的平均每日收益......

小智 1

我找到了一个可能的解决方案,使用 snappydata,使用其可变的 DataFrame:

https://www.snappydata.io/blog/how-mutable-dataframes-improve-join-performance-spark-sql

报告的示例与claudio-dalicandro描述的示例非常相似