使用代码扩展 spark worker 节点

Scale up the spark worker nodes using code

我想扩展 spark 集群以启动所有工作节点，运行在我开始处理之前。问题是因为工作节点的自动缩放不会在加载时立即发生，并导致工作节点崩溃。该集群有 32 个节点，但仅 4 个节点过载并崩溃，所以我想做的是在 python 笔记本的开头编写一些代码行，这将启动剩余的节点并启动 24 个节点，并且运行然后进行实际的数据处理。这可能使用代码吗？请指教

一般来说，自动缩放适用于交互式工作负载。我很少看到它在工作中带来好处，尽管营销人员将其作为一项节省成本的功能进行了很好的销售。

您可以使用 Databricks 作业创建自动化集群。当您运行在新的自动化集群上创建作业并在作业完成时终止集群。

如果您知道什么时候放大应该比自动缩放更好，那么您可以使用此调整大小 API：https://docs.databricks.com/dev-tools/api/latest/clusters.html#resize

使用代码扩展 spark worker 节点

Scale up the spark worker nodes using code

apache-spark

databricks

azure-databricks