如何为 spark 作业指定集群初始化脚本

Question

我的工作需要在集群上执行一些初始化脚本，目前我在创建工作时使用 "Existing Interactive Cluster" 选项并为集群指定了初始化脚本。但这收费更高 "Data analytics workload".

是否有一个选项可以让我在作业创建页面中指定 "New Automated Cluster" 选项，并且仍然可以为新集群执行初始化脚本。我不确定是否建议使用 Global Init script，因为并非所有作业都需要这些初始化脚本，只有特定类别的作业需要初始化脚本。

Answer 1

要微调 Spark 作业，您可以在集群配置中提供自定义 Spark 配置属性。

要为所有集群设置 Spark 属性，请创建一个全局初始化脚本：

%scala
dbutils.fs.put("dbfs:/databricks/init/set_spark_params.sh","""
  |#!/bin/bash
  |
  |cat << 'EOF' > /databricks/driver/conf/00-custom-spark-driver-defaults.conf
  |[driver] {
  |  "spark.sql.sources.partitionOverwriteMode" = "DYNAMIC"
  |}
  |EOF
  """.stripMargin, true)

参考：“Spark Configuration”。

希望对您有所帮助。

如果这回答了您的问题，请点击“标记为答案”并点击 "Up-Vote"。而且，如果您有任何进一步的疑问，请告诉我们。

如何为 spark 作业指定集群初始化脚本

How to specify cluster init script for spark Job

spark-structured-streaming

azure-databricks