Spark + Kafka:如何使用 RDBMS 连接 kafka 流
Spark + Kafka: How to join kafka stream with RDBMS
要求:我有不同的微服务为 Kafka 生成数据。我想收集信息,进行聚合并为报告构建表格。
构建用于报告的新表需要我从 Kafka 读取数据,将其与现有事实表和数据库中的 create/update 新 roes 进行比较。
我当时想的是使用 Spark Streaming 读取 Kafka 主题并与 RDBMS 数据库连接。
寻求帮助以了解进行联接的最佳方式。
JDBC 连接器和 CDC 通过数据库 load/upload 数据的更有效方式。我们可以按照以下步骤:
- 创建 CDC 或 JDBC Kafka 源连接器以将所有数据从 RDBMS table(用户)加载到 Kafka
Please refer here JDBC Connector
- 从两个 Kafka 主题创建 2 个 Kafka 流
- 使用 Kafka Stream 加入和聚合加入
Please refer here Kafka Stream join
一个。使用自定义 Java JDBC
更新回数据库
或
b。尝试将更新的数据发布到新主题并使用 JDBC 接收器连接器更新回 RDBMS 数据库 table.
要求:我有不同的微服务为 Kafka 生成数据。我想收集信息,进行聚合并为报告构建表格。
构建用于报告的新表需要我从 Kafka 读取数据,将其与现有事实表和数据库中的 create/update 新 roes 进行比较。
我当时想的是使用 Spark Streaming 读取 Kafka 主题并与 RDBMS 数据库连接。
寻求帮助以了解进行联接的最佳方式。
JDBC 连接器和 CDC 通过数据库 load/upload 数据的更有效方式。我们可以按照以下步骤:
- 创建 CDC 或 JDBC Kafka 源连接器以将所有数据从 RDBMS table(用户)加载到 Kafka
Please refer here JDBC Connector
- 从两个 Kafka 主题创建 2 个 Kafka 流
- 使用 Kafka Stream 加入和聚合加入
Please refer here Kafka Stream join
一个。使用自定义 Java JDBC
更新回数据库 或b。尝试将更新的数据发布到新主题并使用 JDBC 接收器连接器更新回 RDBMS 数据库 table.