spark streaming 广播变量每日更新
spark streaming broadcast variable daily update
我正在编写一个 spark 流应用程序,其中包含与广播到每个计算节点的基本数据相比的在线流数据。但是,由于基本数据每天更新,我也需要每天更新广播变量。基础数据驻留在hdfs上。
有办法吗?更新与任何在线流媒体结果无关,只说每天 12:00 am。另外,如果有这种方式,更新进程会不会阻塞spark流计算作业?
参考您提到的话题中的最后一个答案。摘要 - 不是发送数据,而是发送缓存代码以在需要的时间间隔更新数据
- 创建每天更新的 CacheLookup 对象@12 am
- 将其包装在广播变量中
- 使用 CacheLookup 作为流逻辑的一部分
我正在编写一个 spark 流应用程序,其中包含与广播到每个计算节点的基本数据相比的在线流数据。但是,由于基本数据每天更新,我也需要每天更新广播变量。基础数据驻留在hdfs上。
有办法吗?更新与任何在线流媒体结果无关,只说每天 12:00 am。另外,如果有这种方式,更新进程会不会阻塞spark流计算作业?
参考您提到的话题中的最后一个答案。摘要 - 不是发送数据,而是发送缓存代码以在需要的时间间隔更新数据
- 创建每天更新的 CacheLookup 对象@12 am
- 将其包装在广播变量中
- 使用 CacheLookup 作为流逻辑的一部分