如何使用 Kafka Connect 处理现有文件和新文件(监视文件夹)
How to use Kafka Connect with existing and new files (watch folder)
我想使用 Apache Kafka Connect 处理 Linux 服务器上的文件。
用例:我有一个文件夹,子文件夹中有 200 万个 XML 个文件。我想按照时间戳的顺序将它们全部推送到 Apache Kafka。然后我想查看新文件的文件夹和子文件夹,并按到达顺序将它们推送到 Kafka。
这可能吗?或者我需要拆分这个过程吗?插件可用吗?
查看 spooldir 连接器插件 https://github.com/jcustenborder/kafka-connect-spooldir
如果这不可行,请查看 connectors.confluent.io 以查看社区中的其他插件。
排序保证将基于您的分区策略。如果您需要全排序,请使用一个分区。
我想使用 Apache Kafka Connect 处理 Linux 服务器上的文件。
用例:我有一个文件夹,子文件夹中有 200 万个 XML 个文件。我想按照时间戳的顺序将它们全部推送到 Apache Kafka。然后我想查看新文件的文件夹和子文件夹,并按到达顺序将它们推送到 Kafka。
这可能吗?或者我需要拆分这个过程吗?插件可用吗?
查看 spooldir 连接器插件 https://github.com/jcustenborder/kafka-connect-spooldir
如果这不可行,请查看 connectors.confluent.io 以查看社区中的其他插件。
排序保证将基于您的分区策略。如果您需要全排序,请使用一个分区。