Google Cloud ML 引擎错误 429 内存不足
Google Cloud ML Engine Error 429 Out of Memory
我将我的模型上传到 ML-engine 并在尝试进行预测时收到以下错误:
ERROR: (gcloud.ml-engine.predict) HTTP request failed. Response: { "error": {
"code": 429,
"message": "Prediction server is out of memory, possibly because model size is too big.",
"status": "RESOURCE_EXHAUSTED" } }
我的模型大小是 151.1 MB。我已经完成了 google 云网站建议的所有操作,例如量化。是否有可能的解决方案或我可以做的任何其他事情来使其发挥作用?
谢谢
通常情况下,这种尺寸的模型不应导致 OOM。由于 TF 做了很多惰性初始化,一些 OOM 直到第一次请求初始化数据结构时才会被检测到。在极少数情况下,某些图形可能会在内存中爆炸 10 倍,从而导致 OOM。
1) 您是否一直看到预测错误?由于 Tensorflow 调度节点的方式,同一图表的内存使用量可能在 运行 秒内不同。一定要运行多次预测,看每次是不是429。
2) 请确保 151.1MB 是您的 SavedModel 目录的大小。
3) 您还可以在本地调试峰值内存,例如在 运行 宁 gcloud ml-engine local predict
时使用 top
或通过在 docker 中将模型加载到内存中容器并使用 docker 统计信息或其他一些方式来监控内存使用情况。您可以尝试调试 tensorflow 服务 (https://www.tensorflow.org/serving/serving_basic) 和 post 结果。
4) 如果您发现内存问题仍然存在,请联系 cloudml-feedback@google.com 以获得进一步的帮助,确保您提供了您的项目编号和关联的帐户以供进一步调试。
我将我的模型上传到 ML-engine 并在尝试进行预测时收到以下错误:
ERROR: (gcloud.ml-engine.predict) HTTP request failed. Response: { "error": {
"code": 429,
"message": "Prediction server is out of memory, possibly because model size is too big.",
"status": "RESOURCE_EXHAUSTED" } }
我的模型大小是 151.1 MB。我已经完成了 google 云网站建议的所有操作,例如量化。是否有可能的解决方案或我可以做的任何其他事情来使其发挥作用?
谢谢
通常情况下,这种尺寸的模型不应导致 OOM。由于 TF 做了很多惰性初始化,一些 OOM 直到第一次请求初始化数据结构时才会被检测到。在极少数情况下,某些图形可能会在内存中爆炸 10 倍,从而导致 OOM。
1) 您是否一直看到预测错误?由于 Tensorflow 调度节点的方式,同一图表的内存使用量可能在 运行 秒内不同。一定要运行多次预测,看每次是不是429。
2) 请确保 151.1MB 是您的 SavedModel 目录的大小。
3) 您还可以在本地调试峰值内存,例如在 运行 宁 gcloud ml-engine local predict
时使用 top
或通过在 docker 中将模型加载到内存中容器并使用 docker 统计信息或其他一些方式来监控内存使用情况。您可以尝试调试 tensorflow 服务 (https://www.tensorflow.org/serving/serving_basic) 和 post 结果。
4) 如果您发现内存问题仍然存在,请联系 cloudml-feedback@google.com 以获得进一步的帮助,确保您提供了您的项目编号和关联的帐户以供进一步调试。