存储 DStream、检查点、持久化?

store DStream, check point, persist?

我是火花流编程的新手。 我怎样才能显示结果并存储它,然后新结果取决于新的 DStream 和这个旧结果。 spark版本=1.6.0 kafka版本2.10和java

请帮忙。

您可以使用 persist() 方法将中间结果保存在内存或磁盘上,具体取决于数据 volume.This 可以在下一个 dstream 处理中访问。 检查点用于从故障点重新启动作业,以防流式作业 restarts.Spark 默认检查点跟踪最后一次成功读取的 kafka 消息并保存 offset.But 它确实有一个错误,直到 2.2 版本的 spark它将在下面的 restart.Refer spark 文档中再次重新处理最后一个成功的 dstream 批处理。 https://spark.apache.org/docs/1.6.0/streaming-programming-guide.html#caching--persistence