根据行内容指定动态生成的 table 名称
Specifying dynamically generated table name based on line contents
我想设置从 gcs 存储桶中的文件读取并写入 bigquery table 的 Dataflow 管道。需要注意的是,要写入的 table 应该根据从 gcs 文件中读取的行的内容来决定。
我的问题是,这可能吗?如果是,有人可以给我任何关于如何完成此操作的提示吗?
此外,必须从中读取的 gcs 文件是动态的。我正在使用对象更改通知服务,只要任何文件 added/removed 到存储桶,它就会调用我的应用程序引擎的注册端点,以及 added/removed 文件详细信息。这是其内容必须流式传输到 bigquery 的文件。
是否可以将数据流管道与 Appengine 集成?
最后,整个设置是否是最好的方法?
谢谢...
关于你的第一个问题:见
关于您的第二个问题:实现此目的的一种方法是让您的应用引擎应用将每个更改通知发布到 Cloud Pubsub,并有一个不断 运行 流式数据流管道监视 pubsub 主题并写入 BigQuery .
关于你的第三个问题:是的,假设你在 GCS 上的数据表示是固定的,其余的对我来说似乎是一个合理的摄取架构:)
我想设置从 gcs 存储桶中的文件读取并写入 bigquery table 的 Dataflow 管道。需要注意的是,要写入的 table 应该根据从 gcs 文件中读取的行的内容来决定。
我的问题是,这可能吗?如果是,有人可以给我任何关于如何完成此操作的提示吗?
此外,必须从中读取的 gcs 文件是动态的。我正在使用对象更改通知服务,只要任何文件 added/removed 到存储桶,它就会调用我的应用程序引擎的注册端点,以及 added/removed 文件详细信息。这是其内容必须流式传输到 bigquery 的文件。
是否可以将数据流管道与 Appengine 集成?
最后,整个设置是否是最好的方法?
谢谢...
关于你的第一个问题:见
关于您的第二个问题:实现此目的的一种方法是让您的应用引擎应用将每个更改通知发布到 Cloud Pubsub,并有一个不断 运行 流式数据流管道监视 pubsub 主题并写入 BigQuery .
关于你的第三个问题:是的,假设你在 GCS 上的数据表示是固定的,其余的对我来说似乎是一个合理的摄取架构:)