本文主要分析神经网络中隐层导数的计算,其主要部分是一个矩阵乘法与向量加法的表达式(这里需要求导的变量是矩阵$A$和向量$b$):
首先对等式两边进行微分:
再对等式两边向量化:
化简可得:
这里用到了公式:
其中$vec(X)$表示将矩阵按列转换成向量,且当$x$为列向量时,$x=vec(x)$
又假设存在损失函数:$l=f(y)$,其中$l$为标量,则有:
令$\frac{\partial l}{\partial y^T}=\delta^T$,得到:
根据微分与梯度对应关系可知:
最终结果: