Google 云数据流依赖项

Google Cloud Dataflow Dependencies

我想使用数据流并行处理存储在 google 存储器中的一堆视频剪辑。我的处理算法具有非 python 依赖性，预计会随着开发迭代而改变。

我的偏好是使用 docker 化的容器和处理剪辑的逻辑，但似乎不支持自定义容器（2017 年）：

虽然现在可能会支持它们 - 因为它正在开发中：

Posthoc connect FFMPEG to opencv-python binary for Google Cloud Dataflow job

根据这个问题，可以提取自定义 docker 图像，但我找不到任何关于如何使用数据流执行此操作的文档。

另一种选择可能是使用 setup.py 安装任何依赖项，如这个过时示例中所述：

然而，当运行这个例子时，我得到一个错误，没有名为 osgeo.gdal.

的模块

对于纯 python 依赖项，我也尝试传递 --requirements_file 参数，但是我仍然收到错误消息：Pip install failed for package: -r

我可以找到将依赖项添加到 apache_beam 的文档，但不能找到添加到数据流的文档，而且根据我对 --requirements_file 和 [ 的测试，apache_beam 指令似乎不起作用=14=]

这已在评论中得到回答，为清楚起见，在此处重写：

在 Apache Beam 中，您可以修改 setup.py 文件，同时运行每个容器在 start-up 上修改一次。此文件允许您在 SDK Harness 开始接收来自 Runner Harness 的命令之前执行任意命令。

可以在 Apache Beam 存储库中找到完整的 example。

自 2020 年起，您可以使用 Dataflow Flex Templates，它允许您指定一个自定义 Docker 容器来执行您的管道。