Azure Databricks:如何在 Databricks 集群中添加 Spark 配置
Azure Databricks: How to add Spark configuration in Databricks cluster
我正在使用 Spark Databricks 集群并希望添加自定义的 Spark 配置。
有一个关于此的 Databricks 文档,但我不知道我应该如何以及应该进行哪些更改。有人可以分享示例来配置 Databricks 集群吗?
有什么办法可以查看Databricks集群中Spark的默认配置吗
要微调 Spark 作业,您可以在集群配置中提供自定义 Spark configuration 属性。
- 在集群配置页面上,单击“高级选项”开关。
- 单击 Spark 选项卡。
[或]
当您使用集群 API 配置集群时,在创建集群请求或编辑集群请求的 spark_conf 字段中设置 Spark 属性。
要为所有集群设置 Spark 属性,创建一个全局初始化脚本:
%scala
dbutils.fs.put("dbfs:/databricks/init/set_spark_params.sh","""
|#!/bin/bash
|
|cat << 'EOF' > /databricks/driver/conf/00-custom-spark-driver-defaults.conf
|[driver] {
| "spark.sql.sources.partitionOverwriteMode" = "DYNAMIC"
|}
|EOF
""".stripMargin, true)
参考: Databricks - Spark Configuration
示例:你可以选择任何你想测试的spark配置,这里我想指定“spark.executor.memory 4g”,自定义配置如下所示。
集群创建完成后,您可以查看自定义配置的结果
希望这有帮助。
我正在使用 Spark Databricks 集群并希望添加自定义的 Spark 配置。
有一个关于此的 Databricks 文档,但我不知道我应该如何以及应该进行哪些更改。有人可以分享示例来配置 Databricks 集群吗?
有什么办法可以查看Databricks集群中Spark的默认配置吗
要微调 Spark 作业,您可以在集群配置中提供自定义 Spark configuration 属性。
- 在集群配置页面上,单击“高级选项”开关。
- 单击 Spark 选项卡。
[或]
当您使用集群 API 配置集群时,在创建集群请求或编辑集群请求的 spark_conf 字段中设置 Spark 属性。
要为所有集群设置 Spark 属性,创建一个全局初始化脚本:
%scala
dbutils.fs.put("dbfs:/databricks/init/set_spark_params.sh","""
|#!/bin/bash
|
|cat << 'EOF' > /databricks/driver/conf/00-custom-spark-driver-defaults.conf
|[driver] {
| "spark.sql.sources.partitionOverwriteMode" = "DYNAMIC"
|}
|EOF
""".stripMargin, true)
参考: Databricks - Spark Configuration
示例:你可以选择任何你想测试的spark配置,这里我想指定“spark.executor.memory 4g”,自定义配置如下所示。
集群创建完成后,您可以查看自定义配置的结果