有没有办法将 PBI 连接到不是 运行 的 Databricks 集群?
Is there a way to connect PBI to a Databricks cluster that is not running?
在我的场景中,Databricks 正在 Delta 表中执行读写转换。我们将 PBI 连接到大多数时间需要 运行 的 Databricks 集群,这很昂贵。
知道增量表在容器中,从成本 x 性能的角度来看,从增量表提供 PBI 的最佳方式是什么?
如果您的设置大小低于 PowerBI 中允许的最大大小(我猜是 100 GB)并且每日刷新就足够了,您可以将所有内容加载到您的 PowerBI 模型中。
https://blog.gbrueckl.at/2021/01/reading-delta-lake-tables-natively-in-powerbi/
如果您想节省成本,也许您不需要事务,可以将其保存在数据湖中的 csv 中,而不是将所有内容加载到 PowerBI 并每天刷新真的很容易。
如果您想一直使用 DirectQuery 来节省成本并查询新的传入数据,请考虑使用 Azure SQL。 5eur/usd起,价格极具竞争力。与 databricks 的集成也是完美的,在追加模式下写所有的魔法。
要考虑的另一个选项是创建 Azure Synapse 工作区和 use serverless SQL compute to query the delta lake files。这是一种按 TB 消耗量付费的定价模型,因此您不必一直拥有 Databricks 集群 运行。这是加载 Power BI 导入模型的好方法。
在我的场景中,Databricks 正在 Delta 表中执行读写转换。我们将 PBI 连接到大多数时间需要 运行 的 Databricks 集群,这很昂贵。
知道增量表在容器中,从成本 x 性能的角度来看,从增量表提供 PBI 的最佳方式是什么?
如果您的设置大小低于 PowerBI 中允许的最大大小(我猜是 100 GB)并且每日刷新就足够了,您可以将所有内容加载到您的 PowerBI 模型中。
https://blog.gbrueckl.at/2021/01/reading-delta-lake-tables-natively-in-powerbi/
如果您想节省成本,也许您不需要事务,可以将其保存在数据湖中的 csv 中,而不是将所有内容加载到 PowerBI 并每天刷新真的很容易。
如果您想一直使用 DirectQuery 来节省成本并查询新的传入数据,请考虑使用 Azure SQL。 5eur/usd起,价格极具竞争力。与 databricks 的集成也是完美的,在追加模式下写所有的魔法。
要考虑的另一个选项是创建 Azure Synapse 工作区和 use serverless SQL compute to query the delta lake files。这是一种按 TB 消耗量付费的定价模型,因此您不必一直拥有 Databricks 集群 运行。这是加载 Power BI 导入模型的好方法。