Spark + Kafka：如何使用 RDBMS 连接 kafka 流

Spark + Kafka: How to join kafka stream with RDBMS

要求：我有不同的微服务为 Kafka 生成数据。我想收集信息，进行聚合并为报告构建表格。

构建用于报告的新表需要我从 Kafka 读取数据，将其与现有事实表和数据库中的 create/update 新 roes 进行比较。

我当时想的是使用 Spark Streaming 读取 Kafka 主题并与 RDBMS 数据库连接。

寻求帮助以了解进行联接的最佳方式。

JDBC 连接器和 CDC 通过数据库 load/upload 数据的更有效方式。我们可以按照以下步骤：

创建 CDC 或 JDBC Kafka 源连接器以将所有数据从 RDBMS table（用户）加载到 Kafka

Please refer here JDBC Connector

从两个 Kafka 主题创建 2 个 Kafka 流
使用 Kafka Stream 加入和聚合加入

Please refer here Kafka Stream join

一个。使用自定义 Java JDBC
更新回数据库或

b。尝试将更新的数据发布到新主题并使用 JDBC 接收器连接器更新回 RDBMS 数据库 table.