如何在流媒体用例中更新大型广播变量?

Sub*_*Rao 5 apache-spark

我有一个用例,我有一个流式作业运行从 kafka 队列获取输入数据。我有 100 万行的参考数据,每小时更新一次。我在驱动程序中加载参考数据,然后将其广播给工作人员。我想更新此广播变量(在驱动程序中)并将其重新发送给工作人员。

在不引入 hbase/redis/cassandra 等的情况下,在 spark 中执行此操作的最佳方法是什么?

这有多可靠?

如果需要更多信息,请告诉我。先感谢您。=)

Tim*_*sov 3

稍后在这里给出了类似问题的答案:How can I update a Broadcast Variable in Spark Streaming?

简而言之,您需要:“取消保留”广播变量、更新并重新广播它。

附言。正式来说,这个问题不是重复的,因为它是早些时候发布的。