Jupyter 笔记本:内核突然重启
Jupyter notebook : kernel restarts suddenly
我的深度学习程序使用 Jupyter 实验室和 Jupyter Notebook,因此我进行了一些长时间的运行以训练我的模型。但是几个星期以来,经过数小时的训练后,我经常重启内核,这非常烦人。此外,服务器控制台或浏览器日志提供的信息很少:
Jupyter-lab 服务器日志:
[I 2021-02-26 00:40:03.756 ServerApp] AsyncIOLoopKernelRestarter: restarting kernel (1/5), keep random ports
kernel 1330ee40-a826-44e2-9be9-f123deeaa1b2 restarted
[I 2021-02-26 00:40:04.070 ServerApp] Starting buffering for 1330ee40-a826-44e2-9be9-f123deeaa1b2:1b7fa111-f2d2-4804-bd90-c81e26562254
[I 2021-02-26 00:40:04.112 ServerApp] Restoring connection for 1330ee40-a826-44e2-9be9-f123deeaa1b2:1b7fa111-f2d2-4804-bd90-c81e26562254
当我使用 Jupyter-notebook 而不是 Jupyter-lab 时,我遇到了同样的问题。
各种备注:
- 服务器和客户端不在同一台机器上,因此我使用ssh连接到服务器here。
- 我在公司代理下工作
- 我使用 Tensorflow 2 进行深度学习
如果您想确定,可以 运行 在 nohup 模式(后台进程)下进行。它会 运行 你的 jupyter notebook 脚本在远程服务器上,即使你与它断开连接也是如此。
您可以 运行 通过查看这个小教程在 nohup 模式下:
https://gist.github.com/33eyes/e1da2d78979dc059433849c466ff5996
好的,我找到了错误的原因 -> 我的代码肯定存在一点内存泄漏 运行,导致程序在数百个 epoch 后崩溃。
我的深度学习程序使用 Jupyter 实验室和 Jupyter Notebook,因此我进行了一些长时间的运行以训练我的模型。但是几个星期以来,经过数小时的训练后,我经常重启内核,这非常烦人。此外,服务器控制台或浏览器日志提供的信息很少:
Jupyter-lab 服务器日志:
[I 2021-02-26 00:40:03.756 ServerApp] AsyncIOLoopKernelRestarter: restarting kernel (1/5), keep random ports
kernel 1330ee40-a826-44e2-9be9-f123deeaa1b2 restarted
[I 2021-02-26 00:40:04.070 ServerApp] Starting buffering for 1330ee40-a826-44e2-9be9-f123deeaa1b2:1b7fa111-f2d2-4804-bd90-c81e26562254
[I 2021-02-26 00:40:04.112 ServerApp] Restoring connection for 1330ee40-a826-44e2-9be9-f123deeaa1b2:1b7fa111-f2d2-4804-bd90-c81e26562254
当我使用 Jupyter-notebook 而不是 Jupyter-lab 时,我遇到了同样的问题。
各种备注:
- 服务器和客户端不在同一台机器上,因此我使用ssh连接到服务器here。
- 我在公司代理下工作
- 我使用 Tensorflow 2 进行深度学习
如果您想确定,可以 运行 在 nohup 模式(后台进程)下进行。它会 运行 你的 jupyter notebook 脚本在远程服务器上,即使你与它断开连接也是如此。
您可以 运行 通过查看这个小教程在 nohup 模式下: https://gist.github.com/33eyes/e1da2d78979dc059433849c466ff5996
好的,我找到了错误的原因 -> 我的代码肯定存在一点内存泄漏 运行,导致程序在数百个 epoch 后崩溃。