CS231N 第 4 讲 Back Prop - 链式法则
CS231N Lecture 4 Back Prop - Chain Rule
我相信这有一个简单的答案!我要求提高我的理解。
图表:修改:CS231N Back Propagation
如果应用该隐规则来获得 Y 的增量,则梯度将为:dy = -4
根据图表。
应用链式规则表示法:df/dy = df/dq * dq/dy
数值上:
double x = -2;
double y = 5;
double q = 3;
double z = -4;
double f = -12;
double df = 1;
double dz = 3;
double dq = -4;
double dy = df * dq;
double dx = df * dq;
其中:df = df/df = 1
如上图,dq = df/dq = -4
如上图。因此:1(df) * -4(dq) = -4(dy)
。还是我完全错了?
数值实际来自哪里,图中的什么地方?这是一个只有梯度的数值链还是我们从其他输入值中推导出来的?我在这里问的原因是因为在第 48 页上,有一个稍微令人困惑的代码示例:
我正在看 (/) 符号,df/dy
,作为一个除法,我认为这是错误的? df/dy = df/dq * dq/dy
= 1/-4 * -4/-4
= 0.25 - 此处一个数字高于另一个数字的目的是什么?
难道df/dy
= dy
是一回事吗,象征着df
的dy
,意思是时光倒流的梯度?
抱歉,我有点困惑。
我相信这有一个简单的答案!我要求提高我的理解。
图表:修改:CS231N Back Propagation
如果应用该隐规则来获得 Y 的增量,则梯度将为:dy = -4
根据图表。
应用链式规则表示法:df/dy = df/dq * dq/dy
数值上:
double x = -2;
double y = 5;
double q = 3;
double z = -4;
double f = -12;
double df = 1;
double dz = 3;
double dq = -4;
double dy = df * dq;
double dx = df * dq;
其中:df = df/df = 1
如上图,dq = df/dq = -4
如上图。因此:1(df) * -4(dq) = -4(dy)
。还是我完全错了?
数值实际来自哪里,图中的什么地方?这是一个只有梯度的数值链还是我们从其他输入值中推导出来的?我在这里问的原因是因为在第 48 页上,有一个稍微令人困惑的代码示例:
我正在看 (/) 符号,df/dy
,作为一个除法,我认为这是错误的? df/dy = df/dq * dq/dy
= 1/-4 * -4/-4
= 0.25 - 此处一个数字高于另一个数字的目的是什么?
难道df/dy
= dy
是一回事吗,象征着df
的dy
,意思是时光倒流的梯度?
抱歉,我有点困惑。