Spring 领导者改变后,kafka 消费者不提交给 kafka 服务器
Spring kafka consumer don't commit to kafka server after leader changed
我正在使用 spring-kafka 2.1.10.RELEASE。我有一个具有下一个属性的消费者(几乎复制了所有属性):
auto.commit.interval.ms = 5000
auto.offset.reset = earliest
bootstrap.servers = [kafka1.local:9093, kafka2.local:9093, kafka3.local:9093]
check.crcs = true
client.id = kafkaListener-0
connections.max.idle.ms = 540000
enable.auto.commit = true
exclude.internal.topics = true
fetch.max.bytes = 52428800
fetch.max.wait.ms = 500
fetch.min.bytes = 1
group.id = kafkaLisneterContainer
heartbeat.interval.ms = 3000
interceptor.classes = null
internal.leave.group.on.close = true
isolation.level = read_uncommitted
max.poll.interval.ms = 300000
max.poll.records = 50
metadata.max.age.ms = 300000
metrics.num.samples = 2
metrics.recording.level = INFO
metrics.sample.window.ms = 30000
partition.assignment.strategy = [class org.apache.kafka.clients.consumer.RangeAssignor]
receive.buffer.bytes = 65536
reconnect.backoff.max.ms = 1000
reconnect.backoff.ms = 50
request.timeout.ms = 305000
retry.backoff.ms = 100
sasl.jaas.config = null
sasl.kerberos.kinit.cmd = /usr/bin/kinit
sasl.kerberos.min.time.before.relogin = 60000
sasl.kerberos.service.name = null
sasl.kerberos.ticket.renew.jitter = 0.05
sasl.kerberos.ticket.renew.window.factor = 0.8
sasl.mechanism = GSSAPI
security.protocol = PLAINTEXT
send.buffer.bytes = 131072
session.timeout.ms = 10000
ssl.cipher.suites = null
ssl.enabled.protocols = [TLSv1.2, TLSv1.1, TLSv1]
ssl.endpoint.identification.algorithm = null
ssl.key.password = null
ssl.keymanager.algorithm = SunX509
ssl.keystore.location = null
ssl.keystore.password = null
ssl.keystore.type = JKS
ssl.protocol = TLS
ssl.provider = null
ssl.secure.random.implementation = null
ssl.trustmanager.algorithm = PKIX
ssl.truststore.location = null
ssl.truststore.password = null
ssl.truststore.type = JKS
我生产的 Apache Kafka 版本是 2.11-1.0.0-0pan4。
里面有个kafka的3个节点的集群:
遇到严重问题,甚至无法在本地重现。这就是发生的事情:
我启动了我的应用程序,里面有kafka Producer和Consumer。
一切正常,直到我的主题的领导节点在 2019 年 1 月 17 日没有更改 06:47:39:
2019-01-17/controller.2019-01-17-03.aaa-aa3.gz:2019-01-17 06:47:39,365
+0000 [controller-event-thread] [kafka.controller.KafkaController] INFO [Controller id=3] New leader and ISR for partition topic_name-0
is {"leader":1,"leader_epoch":3,"isr":[1,3]}
(kafka.controller.KafkaController)
- 在那之后,我的消费者停止向 Kafka 提交偏移量。最后一次提交发生在领导者更换的同一小时同一分钟 - 2019 年 1 月 17 日 06:47。
4) 最神秘的是:在应用程序中,一切正常。 Spring-consumer读取新消息发送给kafka。我看到这样的日志。似乎 spring 消费者将其偏移量保存在内存中并将提交发送到远程 kafka(没有错误等):
2019-01-23 14:03:20,975 +0000
[kafkaLisneterContainer-0-C-1] [Fetcher] DEBUG [Consumer
clientId=kafkaListener-0,
groupId=kafkaLisneterContainer] Fetch READ_UNCOMMITTED at
offset 164871 for partition aaa-1 returned fetch data
(error=NONE, highWaterMark=164871, lastStableOffset = -1,
logStartOffset = 116738, abortedTransactions = null,
recordsSizeInBytes=0) 2019-01-23 14:03:20,975 +0000
[externalbetting] [kafkaLisneterContainer-0-C-1] [Fetcher]
DEBUG [Consumer clientId=kafkaListener-0,
groupId=kafkaLisneterContainer] Added READ_UNCOMMITTED fetch
request for partition eaaa-1 at offset 164871 to node
aaa-aa1.local:9093 (id: 1 rack: null) 2019-01-23 14:03:20,975
5) 但无论如何,Apache kafka 中的延迟会增加。如果我重新启动我的应用程序,spring bean consumer 将被重新创建并将丢失其在内存中保存的偏移量。它将从 kafka 读取该延迟并第二次处理该记录。
求求你帮忙找钥匙!
当您启用自动提交(Kafka 的默认设置)时,提交完全由 kafka-clients 管理,Spring 无法控制它。
将其设置为 false
将允许侦听器容器提交偏移量,默认情况下它将在每批记录(轮询结果)之后或如果您将容器设置为每条记录之后执行偏移量 AckMode
属性 到 RECORD
.
当分区因重新平衡而被撤销时,容器也将可靠地提交任何未决的偏移量。
我通常建议不要使用自动提交。
我正在使用 spring-kafka 2.1.10.RELEASE。我有一个具有下一个属性的消费者(几乎复制了所有属性):
auto.commit.interval.ms = 5000
auto.offset.reset = earliest
bootstrap.servers = [kafka1.local:9093, kafka2.local:9093, kafka3.local:9093]
check.crcs = true
client.id = kafkaListener-0
connections.max.idle.ms = 540000
enable.auto.commit = true
exclude.internal.topics = true
fetch.max.bytes = 52428800
fetch.max.wait.ms = 500
fetch.min.bytes = 1
group.id = kafkaLisneterContainer
heartbeat.interval.ms = 3000
interceptor.classes = null
internal.leave.group.on.close = true
isolation.level = read_uncommitted
max.poll.interval.ms = 300000
max.poll.records = 50
metadata.max.age.ms = 300000
metrics.num.samples = 2
metrics.recording.level = INFO
metrics.sample.window.ms = 30000
partition.assignment.strategy = [class org.apache.kafka.clients.consumer.RangeAssignor]
receive.buffer.bytes = 65536
reconnect.backoff.max.ms = 1000
reconnect.backoff.ms = 50
request.timeout.ms = 305000
retry.backoff.ms = 100
sasl.jaas.config = null
sasl.kerberos.kinit.cmd = /usr/bin/kinit
sasl.kerberos.min.time.before.relogin = 60000
sasl.kerberos.service.name = null
sasl.kerberos.ticket.renew.jitter = 0.05
sasl.kerberos.ticket.renew.window.factor = 0.8
sasl.mechanism = GSSAPI
security.protocol = PLAINTEXT
send.buffer.bytes = 131072
session.timeout.ms = 10000
ssl.cipher.suites = null
ssl.enabled.protocols = [TLSv1.2, TLSv1.1, TLSv1]
ssl.endpoint.identification.algorithm = null
ssl.key.password = null
ssl.keymanager.algorithm = SunX509
ssl.keystore.location = null
ssl.keystore.password = null
ssl.keystore.type = JKS
ssl.protocol = TLS
ssl.provider = null
ssl.secure.random.implementation = null
ssl.trustmanager.algorithm = PKIX
ssl.truststore.location = null
ssl.truststore.password = null
ssl.truststore.type = JKS
我生产的 Apache Kafka 版本是 2.11-1.0.0-0pan4。 里面有个kafka的3个节点的集群:
遇到严重问题,甚至无法在本地重现。这就是发生的事情:
我启动了我的应用程序,里面有kafka Producer和Consumer。
一切正常,直到我的主题的领导节点在 2019 年 1 月 17 日没有更改 06:47:39:
2019-01-17/controller.2019-01-17-03.aaa-aa3.gz:2019-01-17 06:47:39,365 +0000 [controller-event-thread] [kafka.controller.KafkaController] INFO [Controller id=3] New leader and ISR for partition topic_name-0 is {"leader":1,"leader_epoch":3,"isr":[1,3]} (kafka.controller.KafkaController)
- 在那之后,我的消费者停止向 Kafka 提交偏移量。最后一次提交发生在领导者更换的同一小时同一分钟 - 2019 年 1 月 17 日 06:47。
4) 最神秘的是:在应用程序中,一切正常。 Spring-consumer读取新消息发送给kafka。我看到这样的日志。似乎 spring 消费者将其偏移量保存在内存中并将提交发送到远程 kafka(没有错误等):
2019-01-23 14:03:20,975 +0000 [kafkaLisneterContainer-0-C-1] [Fetcher] DEBUG [Consumer clientId=kafkaListener-0, groupId=kafkaLisneterContainer] Fetch READ_UNCOMMITTED at offset 164871 for partition aaa-1 returned fetch data (error=NONE, highWaterMark=164871, lastStableOffset = -1, logStartOffset = 116738, abortedTransactions = null, recordsSizeInBytes=0) 2019-01-23 14:03:20,975 +0000
[externalbetting] [kafkaLisneterContainer-0-C-1] [Fetcher] DEBUG [Consumer clientId=kafkaListener-0, groupId=kafkaLisneterContainer] Added READ_UNCOMMITTED fetch request for partition eaaa-1 at offset 164871 to node aaa-aa1.local:9093 (id: 1 rack: null) 2019-01-23 14:03:20,975
5) 但无论如何,Apache kafka 中的延迟会增加。如果我重新启动我的应用程序,spring bean consumer 将被重新创建并将丢失其在内存中保存的偏移量。它将从 kafka 读取该延迟并第二次处理该记录。
求求你帮忙找钥匙!
当您启用自动提交(Kafka 的默认设置)时,提交完全由 kafka-clients 管理,Spring 无法控制它。
将其设置为 false
将允许侦听器容器提交偏移量,默认情况下它将在每批记录(轮询结果)之后或如果您将容器设置为每条记录之后执行偏移量 AckMode
属性 到 RECORD
.
当分区因重新平衡而被撤销时,容器也将可靠地提交任何未决的偏移量。
我通常建议不要使用自动提交。