作业永远挂起,没有日志

Job hangs forever with no logs

使用 Python SDK,如果我使用 extra_package 选项来使用自定义 ParDo,作业似乎永远挂起(有时我必须手动终止它)。

例如,这是一个作业 ID:2016-12-22_09_26_08-4077318648651073003

没有显式日志或错误抛出...

我注意到它似乎与 extra_package 选项有关,因为如果我在没有实际触发 ParDo(代码注释)的情况下使用此选项,它也不起作用。 具有简单输出模式且没有转换步骤的初始 Bq 查询有效。

有人遇到过吗?

P.S : 我使用的是 DataFlow 0.4.3 版本。我在 venv 中进行了测试,它似乎可以与 DirectPipelineRunner

一起使用

由 thylong 和 jkff 确定:

extra_package 与 Dataflow 的包二进制不兼容。根目录下的requirements.txt和extra_package里的不一样,导致DataFlow容器里的exec.go一再失败。为了解决这个问题,我们重新创建了具有相同冻结依赖项的 venv。