是否可以在不重放上一个检查点的日志的情况下在火花流中使用 kafka 源?

Is it possible to use kafka source in spark streaming without replaying logs from last checkpoint?

我正在使用 pyspark streaming 来处理非常大的流式日志,并且因为日志非常大,所以我不希望 spark 在应用程序因任何原因失败时处理旧日志。

我可以删除检查点目录并得到我想要的,但我想知道是否有任何方法可以通过编程来完成。

我已经试过了KafkaUtils.createStream(..., karkaParams={'auto.offset.reset': 'largest'})但是没有成功。

有什么建议吗?

你应该使用

auto.offset.reset': 'smallest'

如果你想在你的应用程序启动时跳过你的消费者组名称队列中的旧消息。

  • 最大均值 "get me messages which my consumer group did not received never"
  • 最小意味着从现在开始接收消息。

另外为了将来的参考,如果任何人想要应用程序启动时主题中的每条可用消息,您应该每次使用不同的消费者组名称并传递“largest”作为偏移量.