google 云数据流如何使用 apache beam 从 BigQuery 读取？

How does google cloud Dataflow read from BigQuery using apache beam?

google-bigquery
google-cloud-dataflow
apache-beam

读取的结果如何在工作人员之间分配？是使用查询结果创建一个 table 并且工作人员从中获取要读取的页面，还是每个工作人员运行查询并读取不同的页面或...如何？

从 BigQuery 读取时，Dataflow 实际上只是调用 BigQuery 的导出 API 并将 table/query 作为一堆分片 Avro 文件转储到 GCS。一旦文件开始登陆 GCS，Dataflow 工作人员就开始并行读取它们。工作是如何分配的，即哪个工作人员读取哪个 shard/records 是从您那里抽象出来的，而 handled/orchestrated 是由 Dataflow 服务本身抽象出来的。

google 云数据流如何使用 apache beam 从 BigQuery 读取？

How does google cloud Dataflow read from BigQuery using apache beam?

google-bigquery

google-cloud-dataflow

apache-beam