spark streaming 广播变量每日更新

spark streaming broadcast variable daily update

我正在编写一个 spark 流应用程序,其中包含与广播到每个计算节点的基本数据相比的在线流数据。但是,由于基本数据每天更新,我也需要每天更新广播变量。基础数据驻留在hdfs上。

有办法吗?更新与任何在线流媒体结果无关,只说每天 12:00 am。另外,如果有这种方式,更新进程会不会阻塞spark流计算作业?

参考您提到的话题中的最后一个答案。摘要 - 不是发送数据,而是发送缓存代码以在需要的时间间隔更新数据

  1. 创建每天更新的 CacheLookup 对象@12 am
  2. 将其包装在广播变量中
  3. 使用 CacheLookup 作为流逻辑的一部分