作业永远挂起,没有日志
Job hangs forever with no logs
使用 Python SDK,如果我使用 extra_package 选项来使用自定义 ParDo,作业似乎永远挂起(有时我必须手动终止它)。
例如,这是一个作业 ID:2016-12-22_09_26_08-4077318648651073003
没有显式日志或错误抛出...
我注意到它似乎与 extra_package 选项有关,因为如果我在没有实际触发 ParDo(代码注释)的情况下使用此选项,它也不起作用。
具有简单输出模式且没有转换步骤的初始 Bq 查询有效。
有人遇到过吗?
P.S : 我使用的是 DataFlow 0.4.3 版本。我在 venv 中进行了测试,它似乎可以与 DirectPipelineRunner
一起使用
由 thylong 和 jkff 确定:
extra_package 与 Dataflow 的包二进制不兼容。根目录下的requirements.txt和extra_package里的不一样,导致DataFlow容器里的exec.go一再失败。为了解决这个问题,我们重新创建了具有相同冻结依赖项的 venv。
使用 Python SDK,如果我使用 extra_package 选项来使用自定义 ParDo,作业似乎永远挂起(有时我必须手动终止它)。
例如,这是一个作业 ID:2016-12-22_09_26_08-4077318648651073003
没有显式日志或错误抛出...
我注意到它似乎与 extra_package 选项有关,因为如果我在没有实际触发 ParDo(代码注释)的情况下使用此选项,它也不起作用。 具有简单输出模式且没有转换步骤的初始 Bq 查询有效。
有人遇到过吗?
P.S : 我使用的是 DataFlow 0.4.3 版本。我在 venv 中进行了测试,它似乎可以与 DirectPipelineRunner
一起使用由 thylong 和 jkff 确定:
extra_package 与 Dataflow 的包二进制不兼容。根目录下的requirements.txt和extra_package里的不一样,导致DataFlow容器里的exec.go一再失败。为了解决这个问题,我们重新创建了具有相同冻结依赖项的 venv。