spark驱动的高可用

high availability of spark driver

运行 yarn 集群模式下的 spark 应用程序我的驱动程序似乎以某种方式重新启动了。这导致从头开始重新处理所有数据(我正在写几个表并对一些数据进行哈希处理,一些表已经完成)。

有没有办法防止这种情况发生并为驱动程序引入高可用性?

您的驱动程序已重启这一事实是 Spark 对 HA 的解释。发生错误时触发重启。

您可以通过以下方式控制尝试次数 属性 虽然

spark.yarn.maxAppAttempts

将其传递给作业会议中的 hadoop 配置设置。