Azure Databricks:如何在 Databricks 集群中添加 Spark 配置

Azure Databricks: How to add Spark configuration in Databricks cluster

我正在使用 Spark Databricks 集群并希望添加自定义的 Spark 配置。
有一个关于此的 Databricks 文档,但我不知道我应该如何以及应该进行哪些更改。有人可以分享示例来配置 Databricks 集群吗?
有什么办法可以查看Databricks集群中Spark的默认配置吗

要微调 Spark 作业,您可以在集群配置中提供自定义 Spark configuration 属性。

  1. 在集群配置页面上,单击“高级选项”开关。
  2. 单击 Spark 选项卡。

[或]

当您使用集群 API 配置集群时,在创建集群请求或编辑集群请求的 spark_conf 字段中设置 Spark 属性。

要为所有集群设置 Spark 属性,创建一个全局初始化脚本:

%scala
dbutils.fs.put("dbfs:/databricks/init/set_spark_params.sh","""
  |#!/bin/bash
  |
  |cat << 'EOF' > /databricks/driver/conf/00-custom-spark-driver-defaults.conf
  |[driver] {
  |  "spark.sql.sources.partitionOverwriteMode" = "DYNAMIC"
  |}
  |EOF
  """.stripMargin, true)

参考: Databricks - Spark Configuration

示例:你可以选择任何你想测试的spark配置,这里我想指定“spark.executor.memory 4g”,自定义配置如下所示。

集群创建完成后,您可以查看自定义配置的结果

希望这有帮助。