数据流计算与 Databricks 有何不同

How Data Flow computing differs from Databricks

知道在 ADF 数据流中转换将 运行 在后台的 Databricks 集群中,(在成本和性能方面)与 运行 Databricks 笔记本上的相同转换有何不同在同一管道中?

我想这将取决于我们如何设置 Databricks 集群,但我的问题也是了解该集群将如何在后台 运行。它是平台中的专用集群还是共享集群?

ADF 中的每个 activity 都由集成运行时 (VM) 执行。如果您正在同步监控 Databricks 作业,您将需要为将监控您的作业的 Integration Runtime 付费。

Databricks 中的笔记本执行将作为作业集群收费。请创建池并在 ADF 中使用该池。在数据块中,您将在池概览中看到 ADF 创建集群的历史记录。

在创建池的过程中请注意设置,因为您可能会因闲置时间而被收费。最小空闲时间可以为 0,自动终止时间设置为低值。如果你有逐步执行笔记本的数据流,重用同一个池可以更快更便宜,因为 databricks 不会部署新机器并使用池中的现有机器(如果它还没有自动终止)。

在池中的 ADF 作业和最小空闲设置的屏幕截图上: