CS231N 第 4 讲 Back Prop - 链式法则

CS231N Lecture 4 Back Prop - Chain Rule

我相信这有一个简单的答案!我要求提高我的理解。

图表:修改:CS231N Back Propagation

如果应用该隐规则来获得 Y 的增量,则梯度将为:dy = -4 根据图表。

应用链式规则表示法:df/dy = df/dq * dq/dy

数值上:

double x = -2;
double y = 5; 
double q = 3;
double z = -4;
double f = -12;

double df = 1;
double dz = 3;
double dq = -4;
double dy = df * dq; 
double dx = df * dq;

其中:df = df/df = 1如上图,dq = df/dq = -4如上图。因此:1(df) * -4(dq) = -4(dy)。还是我完全错了?

数值实际来自哪里,图中的什么地方?这是一个只有梯度的数值链还是我们从其他输入值中推导出来的?我在这里问的原因是因为在第 48 页上,有一个稍微令人困惑的代码示例:

我正在看 (/) 符号,df/dy,作为一个除法,我认为这是错误的? df/dy = df/dq * dq/dy = 1/-4 * -4/-4 = 0.25 - 此处一个数字高于另一个数字的目的是什么?

难道df/dy = dy是一回事吗,象征着dfdy,意思是时光倒流的梯度?

抱歉,我有点困惑。

复习微分方程有助于消除困惑:https://www.khanacademy.org/math/differential-equations/first-order-differential-equations/differential-equations-intro/v/differential-equation-introduction

迷茫是学习的最大问题!