Beam Dataflow Pipeline Table Creation Sink 作为来自 GCS 的 Bigquery

Beam Dataflow Pipeline Table Creation Sink as Bigquery from GCS

我想创建光束数据流作业以将数据从 GCS 加载到 Bigquery,我将在 GCS 的不同文件夹中以 Parquet 格式拥有 100 多个文件,是否可以从 GCS 的不同文件夹加载文件,是否可能在 beam 代码本身中创建源数据集和表。

我的最终目标是创建管道以将数据从 GCS 加载到 Bigquery 提前致谢。

是的,这非常适合 Dataflow。您可以使用 FileIO 从 GCS 读取并使用 BigQueryIO 写入 BigQuery。

另一种解决方案,您可以使用 gsutil 将所有文件从不同的 GCS 文件夹移动到一个文件夹。然后,一旦您通过 GCS 将所有文件放在一个文件夹中,您就可以轻松地从 GCS 读取数据并将其加载到 BigQuery。