有没有办法将 PBI 连接到不是 运行 的 Databricks 集群?

Is there a way to connect PBI to a Databricks cluster that is not running?

在我的场景中,Databricks 正在 Delta 表中执行读写转换。我们将 PBI 连接到大多数时间需要 运行 的 Databricks 集群,这很昂贵。

知道增量表在容器中,从成本 x 性能的角度来看,从增量表提供 PBI 的最佳方式是什么?

如果您的设置大小低于 PowerBI 中允许的最大大小(我猜是 100 GB)并且每日刷新就足够了,您可以将所有内容加载到您的 PowerBI 模型中。

https://blog.gbrueckl.at/2021/01/reading-delta-lake-tables-natively-in-powerbi/

如果您想节省成本,也许您不需要事务,可以将其保存在数据湖中的 csv 中,而不是将所有内容加载到 PowerBI 并每天刷新真的很容易。

如果您想一直使用 DirectQuery 来节省成本并查询新的传入数据,请考虑使用 Azure SQL。 5eur/usd起,价格极具竞争力。与 databricks 的集成也是完美的,在追加模式下写所有的魔法。

要考虑的另一个选项是创建 Azure Synapse 工作区和 use serverless SQL compute to query the delta lake files。这是一种按 TB 消耗量付费的定价模型,因此您不必一直拥有 Databricks 集群 运行。这是加载 Power BI 导入模型的好方法。