将聚合从 BigQuery 转储到 SQL 服务器,Dataflow 与 Airflow
Dump materialize aggregation from BigQuery to SQL server, Dataflow vs Airflow
我使用 BigQuery 数据集作为数据湖来存储所有 records/events 级别的数据,并使用 SQL 服务器来存储定期更新的聚合报告。因为客户端会经常通过网络界面访问报表,而且每个报表聚合了大量的数据,所以存储BigQuery是行不通的。
执行此操作的最佳做法是什么?在内部,我们有 2 个想法 运行:
运行 每 X 小时一个数据流批处理作业,以重新计算聚合并更新 SQL 服务器。它需要一个调度程序来触发作业,并且可以使用同一个作业来回填所有数据。
运行 做同样事情的 Airflow 作业。回填需要一个单独的作业(但仍然可以与常规作业共享大部分代码)
我知道 Dataflow 在并行处理数据块方面做得很好,但我想知道 Airflow 的性能,以及耗尽连接限制的风险
请从之前的类似问题
中检查此
总而言之:使用 Airflow 可以更有效地管理工作流中的所有流程。 Google 提供的基于 Airflow 的解决方案是 Cloud Composer。
我使用 BigQuery 数据集作为数据湖来存储所有 records/events 级别的数据,并使用 SQL 服务器来存储定期更新的聚合报告。因为客户端会经常通过网络界面访问报表,而且每个报表聚合了大量的数据,所以存储BigQuery是行不通的。
执行此操作的最佳做法是什么?在内部,我们有 2 个想法 运行:
运行 每 X 小时一个数据流批处理作业,以重新计算聚合并更新 SQL 服务器。它需要一个调度程序来触发作业,并且可以使用同一个作业来回填所有数据。
运行 做同样事情的 Airflow 作业。回填需要一个单独的作业(但仍然可以与常规作业共享大部分代码)
我知道 Dataflow 在并行处理数据块方面做得很好,但我想知道 Airflow 的性能,以及耗尽连接限制的风险
请从之前的类似问题
中检查此总而言之:使用 Airflow 可以更有效地管理工作流中的所有流程。 Google 提供的基于 Airflow 的解决方案是 Cloud Composer。