如何从 Spark 集群作业中排除节点?

How to exclude nodes from Spark cluster job?

我在 PySpark 中有一份工作使用 sci-kit learn 0.16.1。集群管理最近添加了一些使用sci-kit learn 0.17.1的节点,并且API for an object changed。必要的升级或降级需要一段时间,所以我正在研究如何在提交作业时排除某些节点。这可能吗?如果可以,我应该在哪里做?在 YARN 上还是在 spark-submit 操作中?

请检查 yarn-site.xml,您可以在其中配置要包含或排除在 yarn 集群中的节点。例如,在 https://hadoop.apache.org/docs/r2.7.2/hadoop-yarn/hadoop-yarn-common/yarn-default.xml 中检查 "yarn.resourcemanager.nodes.include-path" 和 "yarn.resourcemanager.nodes.exclude-path" 属性。