并行训练神经网络，理论框架

Training neural networks in parallel, theoretical framework

我正在研究神经网络，目前正在探索 cpu 之外的其他方法来加速训练过程。在 AWS 的 GPU 机器上使用 Keras 和 Tensorflow，我能够真正加快这个过程。

这种并行化在理论上是如何工作的？ （我不考虑集群并行化）

我很难找到参考资料，所以我想请您深入了解它是如何工作的。

提前致谢

虽然我不熟悉相关的实现，但训练神经网络意味着优化神经网络的参数，例如神经连接的权重。

常见的优化方法包括 quasi-Newton methods，它们受矩阵求逆等矩阵数学运算的速率限制。 GPU在这里可以大大提高计算速度。

参考文献：

"Matrix computations on the GPU"，Nvidia (2013-08)，讨论他们的 GPU 如何并行执行大型矩阵运算。
"Using GPUs"，TensorFlow，讨论如何配置 TensorFlow 以使用 GPU。