如何从另一个火花作业 (B) 查询火花作业 (A) 中的持久数据帧

How to query a persisted dataframe in spark job (A) from another spark job (B)

不同容器上有两个 Spark Streaming 作业 运行 - 我们称它们为教师作业和学生作业。两者都在阅读两个不同的 kafka 主题。当学生消息进入学生火花工作时,我需要 'query' 教师工作的持久数据来检索与该学生关联的教师(在这个例子中,学生只有一个老师,但一个老师可以有很多学生).我如何在教师工作中保留键值对(或教师数据框),然后 retrieve/lookup 在学生工作中保留该教师,以便我可以处理该学生知道它是老师?我可以在一项工作中使用 persist() 而在另一项工作中使用 unpersist() 吗?

从证据来看,Spark Structured Streaming with Kafka Integration utilizing Stream - Stream Join 是可行的方法。