如何为 spark 作业指定集群初始化脚本
How to specify cluster init script for spark Job
我的工作需要在集群上执行一些初始化脚本,目前我在创建工作时使用 "Existing Interactive Cluster" 选项并为集群指定了初始化脚本。但这收费更高 "Data analytics workload".
是否有一个选项可以让我在作业创建页面中指定 "New Automated Cluster" 选项,并且仍然可以为新集群执行初始化脚本。我不确定是否建议使用 Global Init script,因为并非所有作业都需要这些初始化脚本,只有特定类别的作业需要初始化脚本。
要微调 Spark 作业,您可以在集群配置中提供自定义 Spark 配置属性。
要为所有集群设置 Spark 属性,请创建一个全局初始化脚本:
%scala
dbutils.fs.put("dbfs:/databricks/init/set_spark_params.sh","""
|#!/bin/bash
|
|cat << 'EOF' > /databricks/driver/conf/00-custom-spark-driver-defaults.conf
|[driver] {
| "spark.sql.sources.partitionOverwriteMode" = "DYNAMIC"
|}
|EOF
""".stripMargin, true)
参考:“Spark Configuration”。
希望对您有所帮助。
如果这回答了您的问题,请点击“标记为答案”并点击 "Up-Vote"。而且,如果您有任何进一步的疑问,请告诉我们。
我的工作需要在集群上执行一些初始化脚本,目前我在创建工作时使用 "Existing Interactive Cluster" 选项并为集群指定了初始化脚本。但这收费更高 "Data analytics workload".
是否有一个选项可以让我在作业创建页面中指定 "New Automated Cluster" 选项,并且仍然可以为新集群执行初始化脚本。我不确定是否建议使用 Global Init script,因为并非所有作业都需要这些初始化脚本,只有特定类别的作业需要初始化脚本。
要微调 Spark 作业,您可以在集群配置中提供自定义 Spark 配置属性。
要为所有集群设置 Spark 属性,请创建一个全局初始化脚本:
%scala
dbutils.fs.put("dbfs:/databricks/init/set_spark_params.sh","""
|#!/bin/bash
|
|cat << 'EOF' > /databricks/driver/conf/00-custom-spark-driver-defaults.conf
|[driver] {
| "spark.sql.sources.partitionOverwriteMode" = "DYNAMIC"
|}
|EOF
""".stripMargin, true)
参考:“Spark Configuration”。
希望对您有所帮助。
如果这回答了您的问题,请点击“标记为答案”并点击 "Up-Vote"。而且,如果您有任何进一步的疑问,请告诉我们。