GCP 上用于数据管道的最佳服务是什么

What is the best service to use for data pipelines on GCP

我想在 GCP 上的项目上部署服务(python 使用 Apache Beam 的脚本),执行时间有时长达 24 小时。我需要此服务与数据管道始终正常工作。我还有一个 Web 应用程序,它将使用数据管道的结果。我的解决方案是在 GCP App Engine 上部署 Web 应用程序,在 K8s 集群上部署 python 脚本,因为这项工作可以持续长达 24 小时,而 App Engine 是无服务器的,所以无服务器中的一切都应该是短期工作最多15分钟。我的想法是否正确,或者您有其他更好的 GCP 服务解决方案建议。

如果您使用的是 Apache Beam,我的建议是在 Dataflow. The service is fully managed by GCP, and in fact this product was the one open sourced in the Apache Beam 项目上部署管道,因此使用该产品应该很简单。

Dataflow 处理数据后,您可以将结果写入多个可能的目的地,例如 BigQuery、GCS、Pub/Sub、Datastore,并从您的 Web 应用中使用这些结果。请参阅 relevant documentation.

仅请注意所需的处理时间:Dataflow 将根据需要扩展,但即使在那种情况下,如果您的工作需要 24 小时才能完成 运行,这当然是您必须仔细测试和研究的事情, 同时查看可能的相关费用。