诊断失败的 Cloud Dataflow 流水线
Diagnosing failed Cloud Dataflow pipeline
我的 Cloud Dataflow 管道在大约 14 个工作小时后失败,并显示以下神秘日志消息:
Mar 29, 2016, 8:18:16 PM
(3253bcfbb8c9c2a7): Workflow failed. Causes: (2bfe8449fe3ba464): S745 (STAGE REDACTED) Causes: (1a6d5387c382ba3a): A work item was attempted 4 times without success. Each time the worker eventually lost contact with the service. The work item was attempted on: (WORKERS REDACTED)
我快速浏览了工作日志,也不是很明显发生了什么。这些原因代码应该有什么东西吗?
troubleshooting guide 在这里也没有特别说明。我最好的猜测是它属于 "shuffle-bound" 类别(这项工作非常密集),但日志中存在所列错误的 none。
谢谢!
我通过错误 ID 查找了您的工作,工作项似乎由于内存不足错误而反复失败(Java 进程被 OOM 杀手杀死,不幸的是没有机会编写堆转储 - 在云日志中搜索 "oom-killer" 以查找相关条目)。
不幸的是,我对这些信息的建议是,考虑使用更大的实例类型或优化转换的内存使用(例如,确保它们不会在内存中缓冲大量数据)。
我的 Cloud Dataflow 管道在大约 14 个工作小时后失败,并显示以下神秘日志消息:
Mar 29, 2016, 8:18:16 PM (3253bcfbb8c9c2a7): Workflow failed. Causes: (2bfe8449fe3ba464): S745 (STAGE REDACTED) Causes: (1a6d5387c382ba3a): A work item was attempted 4 times without success. Each time the worker eventually lost contact with the service. The work item was attempted on: (WORKERS REDACTED)
我快速浏览了工作日志,也不是很明显发生了什么。这些原因代码应该有什么东西吗?
troubleshooting guide 在这里也没有特别说明。我最好的猜测是它属于 "shuffle-bound" 类别(这项工作非常密集),但日志中存在所列错误的 none。
谢谢!
我通过错误 ID 查找了您的工作,工作项似乎由于内存不足错误而反复失败(Java 进程被 OOM 杀手杀死,不幸的是没有机会编写堆转储 - 在云日志中搜索 "oom-killer" 以查找相关条目)。
不幸的是,我对这些信息的建议是,考虑使用更大的实例类型或优化转换的内存使用(例如,确保它们不会在内存中缓冲大量数据)。