处理数据的模式是我有一条记录流,其中包含一些信息A。这些记录由某些ID分片。该信息A取决于当前记录,上一次计算的结果以及较大的查找表。查找表不经常更改,更改很小。我知道我可以使用mapWithState / flatMapWithState进行有状态的计算。但是,我应该如何处理查找表?惯用的方法是也将其作为状态来处理(如A),但是查找表的大小可能对性能/内存(例如快照时)非常可怕。
我目前正在考虑使其成为受读/写锁保护的共享资源。有没有更好的方法来处理这种模式?
正如您提到的,现在唯一可能的方法是使用状态。我们正在研究一种替代方法。以下是我们的一些想法:https://docs.google.com/document/d/1hIgxi2Zchww_5fWUHLoYiXwSBXjv-M5eOv-MKQYN3m4/edit ?usp=sharing
| 归档时间: |
|
| 查看次数: |
674 次 |
| 最近记录: |