Cla*_*dro 6 apache-spark amazon-kinesis spark-streaming pyspark apache-spark-2.0
我有两个火花流,第一个是与产品相关的数据:它们对供应商的价格,货币,它们的描述,供应商ID.这些数据由类别丰富,通过对描述的分析和以美元计算的价格来猜测.然后将它们保存在镶木地板数据集中.
第二个流包含拍卖这些产品的数据,然后是销售成本和日期.
鉴于产品今天可以到达第一个流并且在一年内出售,我如何将第二个流加入第一个流的镶木地板数据集中包含的所有历史记录?
结果应该是每个价格范围的平均每日收益......
小智 1
我找到了一个可能的解决方案,使用 snappydata,使用其可变的 DataFrame:
https://www.snappydata.io/blog/how-mutable-dataframes-improve-join-performance-spark-sql
报告的示例与claudio-dalicandro描述的示例非常相似
| 归档时间: |
|
| 查看次数: |
396 次 |
| 最近记录: |