处理kafka connect中的数据丢失
Dealing with data loss in kafka connect
了解到Kafka connect可以集群方式部署。工人在数据源和卡夫卡主题之间移动数据。我想知道的是,如果工作人员在数据源与 kafka 主题之间移动数据时失败,是否会出现数据丢失?如果出现数据丢失,我们如何从连接器取回数据,或者 kafka connect 会自动处理它?
这取决于来源以及它是否支持偏移跟踪。
例如,文件中的行、具有主 ID/时间戳的数据库中的行或某些幂等 API 调用可以重复调用并获得相同的起始位置。 (尽管在每种情况下,基础数据也需要不可变才能持续工作)
Kafka Connect SourceTask API has a call to commit 跟踪“偏移量”(不同于 Kafka 主题偏移量)
了解到Kafka connect可以集群方式部署。工人在数据源和卡夫卡主题之间移动数据。我想知道的是,如果工作人员在数据源与 kafka 主题之间移动数据时失败,是否会出现数据丢失?如果出现数据丢失,我们如何从连接器取回数据,或者 kafka connect 会自动处理它?
这取决于来源以及它是否支持偏移跟踪。
例如,文件中的行、具有主 ID/时间戳的数据库中的行或某些幂等 API 调用可以重复调用并获得相同的起始位置。 (尽管在每种情况下,基础数据也需要不可变才能持续工作)
Kafka Connect SourceTask API has a call to commit 跟踪“偏移量”(不同于 Kafka 主题偏移量)