如何使用 Kafka Connect 处理现有文件和新文件（监视文件夹）

How to use Kafka Connect with existing and new files (watch folder)

我想使用 Apache Kafka Connect 处理 Linux 服务器上的文件。

用例：我有一个文件夹，子文件夹中有 200 万个 XML 个文件。我想按照时间戳的顺序将它们全部推送到 Apache Kafka。然后我想查看新文件的文件夹和子文件夹，并按到达顺序将它们推送到 Kafka。

这可能吗？或者我需要拆分这个过程吗？插件可用吗？

如果这不可行，请查看 connectors.confluent.io 以查看社区中的其他插件。

排序保证将基于您的分区策略。如果您需要全排序，请使用一个分区。