google 云数据流如何使用 apache beam 从 BigQuery 读取?
How does google cloud Dataflow read from BigQuery using apache beam?
读取的结果如何在工作人员之间分配?是使用查询结果创建一个 table 并且工作人员从中获取要读取的页面,还是每个工作人员 运行 查询并读取不同的页面或...如何?
从 BigQuery 读取时,Dataflow 实际上只是调用 BigQuery 的导出 API 并将 table/query 作为一堆分片 Avro 文件转储到 GCS。一旦文件开始登陆 GCS,Dataflow 工作人员就开始并行读取它们。工作是如何分配的,即哪个工作人员读取哪个 shard/records 是从您那里抽象出来的,而 handled/orchestrated 是由 Dataflow 服务本身抽象出来的。
读取的结果如何在工作人员之间分配?是使用查询结果创建一个 table 并且工作人员从中获取要读取的页面,还是每个工作人员 运行 查询并读取不同的页面或...如何?
从 BigQuery 读取时,Dataflow 实际上只是调用 BigQuery 的导出 API 并将 table/query 作为一堆分片 Avro 文件转储到 GCS。一旦文件开始登陆 GCS,Dataflow 工作人员就开始并行读取它们。工作是如何分配的,即哪个工作人员读取哪个 shard/records 是从您那里抽象出来的,而 handled/orchestrated 是由 Dataflow 服务本身抽象出来的。