Spark + Kafka:如何使用 RDBMS 连接 kafka 流

Spark + Kafka: How to join kafka stream with RDBMS

要求:我有不同的微服务为 Kafka 生成数据。我想收集信息,进行聚合并为报告构建表格。

构建用于报告的新表需要我从 Kafka 读取数据,将其与现有事实表和数据库中的 create/update 新 roes 进行比较。

我当时想的是使用 Spark Streaming 读取 Kafka 主题并与 RDBMS 数据库连接。

寻求帮助以了解进行联接的最佳方式。

JDBC 连接器和 CDC 通过数据库 load/upload 数据的更有效方式。我们可以按照以下步骤:

  1. 创建 CDC 或 JDBC Kafka 源连接器以将所有数据从 RDBMS table(用户)加载到 Kafka

Please refer here JDBC Connector

  1. 从两个 Kafka 主题创建 2 个 Kafka 流
  2. 使用 Kafka Stream 加入和聚合加入

Please refer here Kafka Stream join

  1. 一个。使用自定义 Java JDBC
    更新回数据库 或

    b。尝试将更新的数据发布到新主题并使用 JDBC 接收器连接器更新回 RDBMS 数据库 table.