如何在 python 中每 30 分钟消耗一次 kafka 队列
How to consume kafka queue every 30 minute in python
我在 python 中遇到有关 kafka 消费者的问题,这是我的用例 kafka 生产者将在实时流中每秒发送一次数据。但是kafka消费者需要每30分钟消费一次并收集一批数据。帮我解决。
如果您不想实时处理数据,您可能需要重新考虑 Kafka 是否适合您。不过,你可以试试这个:
Properties props = new Properties();
props.put("bootstrap.servers", "localhost:9092");
props.put("group.id", "your_consumer_group");
props.put("enable.auto.commit", "true");
props.put("auto.commit.interval.ms", "1000");
props.put("session.timeout.ms", "30000");
props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
consumer.subscribe(Arrays.asList("foo", "bar"));
while (true) {
ConsumerRecords<String, String> records = consumer.poll(1000);
for (ConsumerRecord<String, String> record : records) {
System.out.printf("offset = %d, key = %s, value = %s", record.offset(), record.key(), record.value());
}
// After data is consumed, you make your thread sleep until next 30 min:
Thread.sleep(30 * 60 * 1000);
}
如果您希望在每小时的第 30 分钟或第 0 分钟执行实时批处理,则可以改为使用此睡眠:
Thread.sleep(System.currentTimeMillis() % (30*60*1000));
它会让您的消费者在 00:00
、00:30
、01:00
、01:30
等时间醒来。
按照这个 link 了解详情:https://kafka.apache.org/0100/javadoc/index.html?org/apache/kafka/clients/consumer/KafkaConsumer.html
同样,您可能不想以这种方式使用 kafka。最好将数据转储到某些存储(例如,按日期时间分区的镶木地板文件)并每 30 分钟对其进行一些批处理。
我在 python 中遇到有关 kafka 消费者的问题,这是我的用例 kafka 生产者将在实时流中每秒发送一次数据。但是kafka消费者需要每30分钟消费一次并收集一批数据。帮我解决。
如果您不想实时处理数据,您可能需要重新考虑 Kafka 是否适合您。不过,你可以试试这个:
Properties props = new Properties();
props.put("bootstrap.servers", "localhost:9092");
props.put("group.id", "your_consumer_group");
props.put("enable.auto.commit", "true");
props.put("auto.commit.interval.ms", "1000");
props.put("session.timeout.ms", "30000");
props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
consumer.subscribe(Arrays.asList("foo", "bar"));
while (true) {
ConsumerRecords<String, String> records = consumer.poll(1000);
for (ConsumerRecord<String, String> record : records) {
System.out.printf("offset = %d, key = %s, value = %s", record.offset(), record.key(), record.value());
}
// After data is consumed, you make your thread sleep until next 30 min:
Thread.sleep(30 * 60 * 1000);
}
如果您希望在每小时的第 30 分钟或第 0 分钟执行实时批处理,则可以改为使用此睡眠:
Thread.sleep(System.currentTimeMillis() % (30*60*1000));
它会让您的消费者在 00:00
、00:30
、01:00
、01:30
等时间醒来。
按照这个 link 了解详情:https://kafka.apache.org/0100/javadoc/index.html?org/apache/kafka/clients/consumer/KafkaConsumer.html
同样,您可能不想以这种方式使用 kafka。最好将数据转储到某些存储(例如,按日期时间分区的镶木地板文件)并每 30 分钟对其进行一些批处理。