Google Colaboratory 上的 Keras：迭代不完整？

Question

我是运行 keras 添加 rnn (seq2seq) example - here。我已经在运行 1.Jupyter 上 ubuntu VM 上尝试过这个，也在 Google 带 GPU 的协作笔记本上尝试过。但恐怕在 Google Colab 上，它没有完成所有迭代。更具体地说，

以下是来自常规 jupyter notebook 的日志：

Iteration 1
Train on 45000 samples, validate on 5000 samples
Epoch 1/1
45000/45000 [==============================] - 75s 2ms/step - loss: 1.8899 - acc: 0.3209 - val_loss: 1.7819 - val_acc: 0.3429

以下是来自 Google 协作笔记本的日志。

Iteration 1
Train on 45000 samples, validate on 5000 samples
Epoch 1/1
17536/45000 [==========>...................] - ETA: 10s - loss: 2.0067 - acc: 0.2934

请注意，在本次未完成的迭代之后，它不会停止，而是会进入下一次迭代。以下是 colab notebook 下一次迭代的日志 -

Iteration 2
Train on 45000 samples, validate on 5000 samples
Epoch 1/1
34688/45000 [======================>.......] - ETA: 2s - loss: 1.7466 - acc: 0.3562

请注意，我在这两种环境中使用了相同的代码。我不明白这里发生了什么。为什么在 Google colab notebook 上没有完成迭代？它与 Google colab 上的 GPU 相关吗？我该如何解决？任何指针将不胜感激。谢谢！

Answer 1

我在 Co-Lab 中遇到了这个问题，它在云中提供了最多 (12 GB) 的有限内存，这在解决问题时会产生很多问题。这就是为什么只使用 300 张图像进行训练并且 test.when 图像以 600x600 尺寸进行预处理并且批量大小设置为 128，Keras 模型在纪元 1 期间冻结。编译器没有显示这个 error.Actually 错误是运行时间有限的内存，CoLab 无法处理，因为它只提供 12GB 的有限内存供使用。通过将批量大小更改为 4 并将图像尺寸减小到 300x300 来解决上述问题，因为对于 600x600 它仍然不起作用。最后，推荐的解决方案是使图像维度和 Batch_size 变小，直到你没有错误运行一次又一次地通过进一步改变批量大小和图像尺寸小直到没有运行时间错误strong text

Answer 2

epoch 出现这种行为的一个基本原因是 'print' 给定 epoch 的两个步骤之间的声明。但是由于这个原因导致的进度条不完整不会影响模型训练。

Google Colaboratory 上的 Keras：迭代不完整？

Keras on Google Colaboratory: Incomplete iterations?

gpu

keras

jupyter-notebook

google-colaboratory