Google Cloud ML 引擎错误 429 内存不足

Question

我将我的模型上传到 ML-engine 并在尝试进行预测时收到以下错误：

ERROR: (gcloud.ml-engine.predict) HTTP request failed. Response: {   "error": {
    "code": 429,
    "message": "Prediction server is out of memory, possibly because model size is too big.",
    "status": "RESOURCE_EXHAUSTED"   } }

我的模型大小是 151.1 MB。我已经完成了 google 云网站建议的所有操作，例如量化。是否有可能的解决方案或我可以做的任何其他事情来使其发挥作用？

谢谢

Answer 1

通常情况下，这种尺寸的模型不应导致 OOM。由于 TF 做了很多惰性初始化，一些 OOM 直到第一次请求初始化数据结构时才会被检测到。在极少数情况下，某些图形可能会在内存中爆炸 10 倍，从而导致 OOM。

1) 您是否一直看到预测错误？由于 Tensorflow 调度节点的方式，同一图表的内存使用量可能在运行秒内不同。一定要运行多次预测，看每次是不是429。

2) 请确保 151.1MB 是您的 SavedModel 目录的大小。

3) 您还可以在本地调试峰值内存，例如在运行宁 gcloud ml-engine local predict 时使用 top 或通过在 docker 中将模型加载到内存中容器并使用 docker 统计信息或其他一些方式来监控内存使用情况。您可以尝试调试 tensorflow 服务 (https://www.tensorflow.org/serving/serving_basic) 和 post 结果。

4) 如果您发现内存问题仍然存在，请联系 cloudml-feedback@google.com 以获得进一步的帮助，确保您提供了您的项目编号和关联的帐户以供进一步调试。

Google Cloud ML 引擎错误 429 内存不足

Google Cloud ML Engine Error 429 Out of Memory

python

tensorflow

google-cloud-ml