Garden | 神经网络的数学原理

神经网络是机器学习的一个重要分支，它通过模仿生物神经网络系统结构和功能，提出了一种非线性统计性模型 ，用于对函数的近似和估计。神经网络以其独特的网络结构和处理信息的方法，在自动控制领域、组合优化问题、模式识别、图形处理、自然语言处理等诸多领域，已经取得了辉煌的成绩，本文将介绍其基本模型和核心算法实现。

神经网络概述

神经元

神经网络最早的设计思路来自于生物学中的神经元，从结构、实现机理和功能上模拟神经网络系统：

回想下高中生物知识，传统的神经元模型由树突、细胞核、细胞体、突触和神经末梢组成：

突触前（神经元）细胞的树突或细胞体接受刺激，产生兴奋或抑制。
动作电位传到神经末梢，导致神经递质释放。
使突触后（神经元）细胞的树突或细胞体接受刺激。

对于人工神经网络，神经元的输入 $x_i$ 对应于生物神经元的树突，输入 $x_i$ 向细胞体传播脉冲，相当于输入权值 $w_i$，通过细胞核对输入的数据和权值参数进行加权求和。传播细胞体的脉冲相当于人工神经元的激活函数，最终输出结果 $y$ 作为下一个神经元的输入。

可以看到人工神经网络最基本的处理单元 —— 神经元的基本组成单位为：

连接 Connection：神经元中数据流动的表达方式
求和节点 Summation Node ：对输入信号和权值的乘积进行求和
激活函数 Activate Function：一个非线性函数，对输出信号进行控制

将上述模型进行抽象，得到神经元基本模型：

$x_1, x_2, …, x_n$ 为输入信号的各个分量
$w_1, w_2, …, w_n$ 为神经元各个突触的权值
$b$ 为神经元的偏置参数
$\sum$ 为求和节点，$z = \sum_{i=1}^n w_i * x_i + b$
$f$ 为激活函数，一般为非线性函数
$y$ 为该神经元的输出

该神经元模型的数学表达式为：

$$ y = f (\sum_{i=1}^n w_i * x_i + b ) $$

可以看到，神经元模型就是一个基本的函数，本质上做的是数据的映射，$\mathbf{X}$ 为输入向量，$y$ 为输出变量，神经元对应着 $y = \varphi(\mathbf{X})$ ，而 $\mathbf{W}$ 和 $b$ 则是这个函数的参数。单个神经元如果没有加上激活函数，可以看作是一个线性模型，而 $\mathbf{W}$ 和 $b$ 则是这个线性模型的参数。

$$ y = \mathbf{W}^\mathsf{T} \mathbf{X} + b $$

回想下本科的线性几何课程，线性模型的任何组合仍然是线性模型。但是对于现实数据而言，很多数据都是线性不可分的，需要的是非线性模型。另外，对于一个拥有很多特征的复杂数据集进行线性回归是代价很高的，需要高昂的计算代价。因此，我们需要在神经元模型中引入一个 非线性单元，也就是这里的 激活函数，使得神经元模型能够更好的解决复杂的数据分布问题。

多层神经网络

人工神经网络由许多神经元组合而成，神经元组成的信息处理网络具有并行分布结构，因此有了更复杂的人工神经网络。一个多层人工神经网络 ANN 由输入层、隐藏层、输出层组成，第 k-1 层网络神经元的输出是第 k 层神经元的输入。下面是一个简单的两层神经网络，我们将输入层称为第零层：

人工神经网络的输入层与输出层的节点数往往固定，这取决于我们的输入和输出，而隐层数和隐层节点则可以自由指定。人工神经网络的关键不是节点而是连接，每层的神经元与下一层的多个神经元相连接，每条连接线都有独自的权重参数，这些参数往往通过训练得到。

在这个图中，$w_{ij}$ 表示第 $k-1$ 层的第 $i$ 个节点到的权重第 $k$ 层的第 $j$ 个节点

根据上面的公式，我们可以容易得出：

$$ o_1 = f(w_{11} * x_1 + w_{21} * x_2 + w_{31} * x_3 + b_1) \ o_2 = f(w_{12} * x_1 + w_{22} * x_2 + w_{32} * x_3 + b_2) \ o_3 = f(w_{13} * x_1 + w_{23} * x_2 + w_{33} * x_3 + b_3) \ o_3 = f(w_{14} * x_1 + w_{24} * x_2 + w_{34} * x_3 + b_4) $$

令

$$ \mathbf{X} = \begin{bmatrix}x_1\ x_2\ x_3 \end{bmatrix}, \mathbf{w_1} = \begin{bmatrix}w_{11}\ w_{21}\ w_{31} \end{bmatrix}, \mathbf{w_2} = \begin{bmatrix}w_{12}\ w_{22}\ w_{32} \end{bmatrix}, \mathbf{w_3} = \begin{bmatrix}w_{13}\ w_{23}\ w_{33} \end{bmatrix}, \mathbf{w_4} = \begin{bmatrix}w_{14}\ w_{24}\ w_{34} \end{bmatrix} $$

则

$$ o_1 = f(\mathbf{w_1}^\mathsf{T} \mathbf{X} + b_1)\ o_2 = f(\mathbf{w_2}^\mathsf{T} \mathbf{X} + b_2)\ o_3 = f(\mathbf{w_3}^\mathsf{T} \mathbf{X} + b_3)\ o_4 = f(\mathbf{w_4}^\mathsf{T} \mathbf{X} + b_4)\ $$

令

$$\mathbf{o} = \begin{bmatrix} o_1\\ o_2\\ o_3\\ o_4 \end{bmatrix}, \mathbf{W} = \begin{bmatrix} \mathbf{w_1}^\mathsf{T} \\ \mathbf{w_2}^\mathsf{T}\\ \mathbf{w_3}^\mathsf{T}\\ \mathbf{w_4}^\mathsf{T} \end{bmatrix} = \begin{bmatrix}w_{11}, w_{21}, w_{31} \\w_{12}, w_{22}, w_{32}\\w_{13}, w_{23}, w_{33}\\w_{14}, w_{24}, w_{34} \end{bmatrix}, \mathbf{B} = \begin{bmatrix}b_1\\ b_2\\ b_3\\ b_4 \end{bmatrix}\\$$

$$f(\begin{bmatrix} o_1\\ o_2\\ o_3\\ o_4 \end{bmatrix}) = \begin{bmatrix} f(o_1)\\ f(o_2)\\ f(o_3)\\ f(o_4) \end{bmatrix}$$

则有，

$$ \mathbf{o} = f ( \mathbf{W} \mathbf{X} + \mathbf{B}) $$

在这个公式说明神经网络的每一层的作用实际上就是先将输入向量左乘一个数组进行线性变换，得到一个新的向量，然后再对这个向量逐元素应用一个激活函数，其中每个变量的定义如下：

$f$ 是激活函数
$\mathbf{W}$ 是第 $k$ 层的权重矩阵
- 它的每一个行向量对应着第 $k$ 层的每个节点，也就是说如果第 $k$ 层的有 $N$ 个节点，则 $\mathbf{W}$ 共有 $N$ 个行向量
- 如果第$k-1$层有 $M$ 个节点，则 $\mathbf{W}$ 的每个行向量的长度为 $M$ ，对应着第$k-1$层$M$ 个节点的求和
$B$ 是第 $k$ 层的偏置向量，其长度与第 $k$ 层的节点数相同
$\mathbf{X}$ 是第 $k$ 层的输入向量，也正是第 $k-1$ 层的输出向量
$\mathbf{o}$ 是第 $k$ 层输出向量

因此，如果我们将上面的简单神经网络增加层数到 4 层，如下图所示（注意，这里画图有点偷懒，中间应该是全连接网络，为了简单这里没有全部连起来）

则我们可以算出每一层的输出向量如下：

$$ \mathbf{o_1} = f ( \mathbf{W_1} \mathbf{X} + \mathbf{B_1}) \ \mathbf{o_2} = f ( \mathbf{W_2} \mathbf{o_1} + \mathbf{B_2}) \ \mathbf{o_3} = f ( \mathbf{W_3} \mathbf{o_2} + \mathbf{B_3}) \ \mathbf{Y} = f ( \mathbf{W_4} \mathbf{o_3} + \mathbf{B_4}) \ $$

训练与预测

前向传播算法

OK，假设我们现在根据某个应用场景，构建了一个多层神经网络的模型，并且根据训练数据获得了网络的所有参数（输入层、输出层、隐层的节点数、权重矩阵 $W$ 和偏置向量 $B$）。如果这个模型参数合理的话，那么对于新的输入数据，这个模型能够预测出合理的输出结果。所谓的预测，就是将向量化的数据从神经网络的输入层开始输入，顺着数据流动的方向在网络中计算，直到数据传输到输出层并输出，这也就是 前向传播算法。

假设我们有如下定义：

$w_{ij}^k$：第 $k$ 层的第 $j$ 个节点对于来自第 $k-1$层的第 $i$ 个节点的权重
$b_j^k$：第 $k$ 层的第 $j$ 个节点的偏置
$net_j^k$：第 $k$ 层的第 $j$ 个节点的 net input value，也就是激活函数的输入
$o_j^k$：第 $k$ 层的第 $j$ 个节点的输出，也就是激活函数的输出
$r_k$：第 $k$ 层的节点数目
$M$：神经网络输入向量 $X$ 的大小，即 $r_0 = M$
$L$：全连接神经网络的层数，最简单的神经元的层数为 $1$
$N$：神经网络输出向量 $Y$ 的大小，即 $r_L = N$

则对于第 $k$ 层的第 $j$ 个节点，有

$$ net_j^k = \sum_{i=1}^{r_{k-1}} w_{ij}^{k}o_i^{k-1} + b_j^k $$

也就是说，第 $k$ 层的第 $j$ 个节点的净输入为第 $k-1$ 层的所有节点输出值的加权和再加上第 $k$ 层第 $j$ 个节点的偏置。

当 $k=1$时，第 $k-1=0$ 层的输出向量 $O^0$ 就是输入向量 $X$，此时 $\begin{bmatrix}o_1^0, o_2^0, \dots, o_M^0 \end{bmatrix} = \begin{bmatrix}x_1, x_2, \dots, x_M \end{bmatrix}$
当 $k = L$时，也即是最后一层的输出向量 $O^L$ 就是输出向量 $Y$，此时 $\begin{bmatrix}o_1^L, o_2^L, \dots, o_N^L \end{bmatrix} = \begin{bmatrix}y_1, y_2, \dots, y_N \end{bmatrix}$

因此，一旦确定了神经网络的参数，就可以通过上述公式迭代算出神经网络的输出：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13


def forward_propagation(network_structure, weight, bias):
  for j = 1...M
	  o[0][j] = x[j]

  for k = 1...L
    for j = 1...r[k]
      net[k][j] = bias[k][j]
      for i = 1...r[k-1]
        net[k][j] += weight[k][i][j] * o[k-1][i]
      o[k][j] = f(net[k][j])

  for j = 1...N
    y[j] = o[L][j]

梯度下降算法

如上所说，一旦确定好神经网络模型中的权值矩阵 $W$ 和偏置向量 $B$ ，就可以基于模型进行预测了。现在的问题是，如何得到这些参数的值呢？这就要通过原始数据训练得到了。神经网络的训练实际上是通过算法不断修改权值矩阵 $W$ 和偏置向量 $B$ ，使其尽可能与真实模型逼近，以使得整个神经网络的预测效果最佳。具体做法如下：

给所有权值矩阵$W$ 和偏置向量 $B$ 赋予随机值
利用前向传播算法基于随机的权值矩阵$W$ 和偏置向量 $B$ 来得到训练样本的预测值 $\hat{y}$
计算损失函数 $loss = (\hat{y} - y)^2$，优化目标是改变神经网络中的参数，使得损失函数的值最小

因此，对于神经网络的优化问题就转换为对参数的优化，减少损失直至损失收敛，当损失函数收敛到一定程度时就可以结束训练，保存训练后神经网络的参数。

在微积分中，对多元函数的参数求偏导，求得参数的偏导数以向量的形式表达就是梯度。如下图所示，对于损失函数 $loss$ 的参数 $\theta$ 求梯度即是 $\frac{\partial{loss}}{\partial{\theta}}$ 。在数学上，梯度越大，则函数的变化越大。也就是说，沿着梯度向量的方向函数增加最快，易于找到函数的最大值；沿着与梯度向量相反的方向函数减少最快，易于找到函数的最小值。

对于损失函数来说，为了找到其最小值，需要沿着与梯度向量相反的方向 $-\frac{\partial{loss}}{\partial{\theta}}$ 更新参数 $\theta$，这样可以使得梯度减少最快，直至损失收敛至最小值。这即是 梯度下降算法（Gradient Descent），其基本公式为：

$$ \theta = \theta - \alpha \frac{\partial{loss}}{\partial{\theta}} $$

其中，$\alpha \in \mathbf{R}$ 为学习率，用于控制梯度下降的幅度。我们可以将损失函数看成是参数 $\theta$ 的函数，优化的目的就是找到参数 $\theta_x$ 使得损失函数最小。具体的做法就是，每次计算参数 $\theta_i$ 在当前位置时函数的梯度，然后让参数 $\theta_i$ 顺着梯度的反方向前进一段距离，不断重复该过程，直到梯度趋近于零的时候，算法认为找到的损失函数的最小值并停止计算。此时的参数即是目标 $\theta_x$ 神经网络的参数。

梯度下降的算法变种有很多，下面对常用的梯度下降算法进行介绍。

批量梯度下降算法 BGD

批量梯度下降算法 Batch Gradient Descent 中，所有样本都参与参数 $w$ 的更新。假设有 $m$ 个样本，$m$ 个样本都参与调整参数 $w$，因此得到一个标准的梯度。

优点：易于得到全局最优解，总体迭代次数不多
缺点：当样本数目很多时，训练时间过长，收敛速度变慢

随机梯度下降算法 SGD

随机梯度下降算法 Stochastic Gradient Descent 中，梯度是从 $m$ 个样本中随机抽取 $n$ 个样本进行求解的

优点：训练速度快，每次迭代计算量少
缺点：准确度下降，得到的不一定是全局最优，总体迭代次数比较多

小批量随机梯度下降算法 Mini-batch SGD

小批量随机梯度下降算法是对 BGD 和 SGD 的折衷方法：每次随机从 $m$ 个样本中抽取 $k$ 进行迭代求梯度，每一次迭代的抽取方式都是随机的，因此部分样本会重复。这样做的好处是，计算梯度时让数据和数据之间产生关联，避免数据最终只能收敛到局部最优解。

反向传播算法

反向传播算法，全称是 back propagation of errors，本质上就是利用梯度下降算法来计算神经网络的参数，它从输出层开始向输入层的方向一层一层往前算起，计算出每一层误差的梯度，从而更新神经网络的参数，下面将从数学上推导反向传播算法的具体实现。

假设我们有以下定义：

$w_{ij}^k$：第 $k$ 层的第 $j$ 个节点对于来自第 $k-1$层的第 $i$ 个节点的权重
$b_j^k$：第 $k$ 层的第 $j$ 个节点的偏置
$net_j^k$：第 $k$ 层的第 $j$ 个节点的 net input value，也就是激活函数的输入
$o_j^k$：第 $k$ 层的第 $j$ 个节点的输出，也就是激活函数的输出
$r_k$：第 $k$ 层的节点数目
$M$：神经网络输入向量 $X$ 的大小，即 $r_0 = M$
$L$：全连接神经网络的层数，最简单的神经元的层数为 $1$
$N$：神经网络输出向量 $Y$ 的大小，即 $r_L = N$
前馈神经网络，其中 $\theta$ 是网络的参数，对应的就是权值 $w_{ij}^k$ 和偏置 $b_j^k$
$E(\theta)$：神经网络的预测值与实际值的误差函数
$f$：激活函数
$f_o$：输出层的激活函数

根据梯度下降算法，我们的目标是找到最佳的网络参数，使得误差函数最小：

$$ \theta^{t+1} = \theta^t - \alpha \frac{\partial E(\theta)}{\partial \theta} $$

其中 $\theta^t$ 是神经网络在计算梯度的第 $t$ 次迭代中的参数。

根据最小均方误差，我们可以得到

$$ E(\theta) = \frac{1}{2N} \sum_{i=1}^N (\hat{y_i} - y_i)^2 $$

计算梯度

$$ \frac{\partial E(\theta)}{\partial w_{ij}^k} = \frac{1}{N} \sum_{d=1}^N \frac{\partial}{\partial w_{ij}^k} ( \frac{1}{2} (\hat{y_d} - y_d)^2 ) = \frac{1}{N} \sum_{d=1}^N \frac{\partial E_d}{\partial w_{ij}^k} $$

其中，

$$ E = \frac{1}{2} (\hat{y} - y)^2 $$

这里为了表达方便，省略了 $E_d$, $\hat{y_d}$, $y_d$ 中的下标 $d$

也就是说，总的误差函数梯度是输出层每一个节点误差梯度的算术平均值，接下来我们看如何计算 $\frac{\partial E}{\partial w_{ij}^k}$

根据链式法则，

$$ \frac{\partial E}{\partial w_{ij}^k} = \frac{\partial E}{\partial net_{j}^k} \frac{\partial net_{j}^k}{\partial w_{ij}^k} $$

我们将右式第一项记作误差，也就是第 $k$ 层第 $j$ 个节点的误差

$$ \delta_j^k = \frac{\partial E}{\partial net_{j}^k} $$

对于右式第二项，我们先回顾前向传播算法有

$$ net_j^k = \sum_{i=1}^{r_{k-1}} w_{ij}^{k}o_i^{k-1} + b_j^k \ $$

为了简化数学表达，我们可以把第 $k$ 层第 $j$ 个节点的偏置视作来自第$k-1$ 层的节点 0 的输入，其中$o_0^{k-1} = 1$，则

$$ b_j^k = w_{0j}^k = w_{0j}^k * o_0^{k-1} $$

故

$$ net_j^k = \sum_{i=1}^{r_{k-1}} w_{ij}^{k}o_i^{k-1} + b_j^k = \sum_{i=0}^{r_{k-1}} w_{ij}^{k}o_i^{k-1} $$

所以计算梯度简化如下

$$ \frac{\partial net_{j}^k}{\partial w_{ij}^k} = \frac{\partial}{\partial w_{ij}^k} (\sum_{l=0}^{r_{k-1}} w_{lj}^{k}o_l^{k-1}) = \sum_{l=0}^{r_{k-1}} \frac{\partial}{\partial w_{ij}^k} (w_{lj}^{k}o_l^{k-1}) = 0 + \dots + \frac{\partial}{\partial w_{ij}^k} (w_{ij}^{k}o_i^{k-1}) + \dots + 0 = o_i^{k-1} $$

综上，

$$ \frac{\partial E}{\partial w_{ij}^k} = \delta_j^k o_i^{k-1} $$

得到梯度的表达式之后，可以根据是输出层还是隐藏层具体计算。

输出层

如向所述，我们将通过梯度下降的方法来迭代计算神经网络的参数，首先看输出层，我们需要计算出 $\delta_j^L$。

$$ \delta_j^L = \frac{\partial E}{\partial net_{j}^L} $$

而

$$ E = \frac{1}{2} (\hat{y} - y) ^ 2 = \frac{1}{2} (f_o(net_j) - y)^2 \ $$

则有

$$ \delta_j^L = \frac{\partial E}{\partial net_{j}^L} = (f_o(net_j) - y)f_o^\prime(net_j) = (\hat{y} - y)f_o^\prime(net_j) $$

于是得到梯度的计算公式：

$$ \frac{\partial E}{\partial w_{ij}^L} = \delta_j^L o_i^{L-1} = (\hat{y} - y)f_o^\prime(net_j) o_i^{L-1} $$

隐藏层

对于隐藏层，我们也需要算出第 $k$ 层第 $j$ 个节点的误差 $\delta_j^k$ ，它将通过影响第 $k+1$ 层所有节点的净输入 $net_i^{k+1}$来影响最终的误差$E$。

因此，我们通过链式法则将 $E$ 先对第 $k+1$ 层所有节点的净输入 $net_i^{k+1}$ 求导，然后再将 $net_i^{k+1}$ 对 $net_i^{k}$ 求导：

$$ \delta_j^k = \frac{\partial E}{\partial net_j^k} = \sum_{l=1}^{r_{k+1}} \frac{\partial E}{\partial net_l^{k+1}} \frac{\partial net_l^{k+1}}{\partial net_j^k} $$

注意这里的 $l$ 范围是 1 到 $r^{k+1}$，$l$ 没有从$0$开始是因为，第 $k+1$ 层的净输入 $net_0^{k+1}$ 实际上为第 $k$ 层节点$0$的输出 $o_{0}^{k}$ 乘以权值 $ w_{0j}^{k+1} $ 是固定的，它不取决于第 $k$ 层的输出。

我们知道，上式的第一个偏微分已经在第 $k+1$ 层计算误差得到，

$$ \frac{\partial E}{\partial net_l^{k+1}} = \delta_l^{k+1} $$

而对于第二个偏微分，我们将 $net_l^{k+1}$ 展开，

$$ net_l^{k+1} = \sum_{j=0}^{r_{k}} w_{jl}^{k+1}o_j^{k} = \sum_{j=0}^{r_{k}} w_{jl}^{k+1}f(net_j^k) $$

这里的 $f(x)$ 是隐藏层的激活函数，所以可以得到第二个偏微分的公式，

$$ \frac{\partial net_l^{k+1}}{\partial net_j^k} = \frac{\partial}{\partial net_j^k}\sum_{j=0}^{r_{k}} w_{jl}^{k+1}f(net_j^k) = w_{jl}^{k+1}f^\prime(net_j^k) $$

故我们得到了反向传播公式，

$$ \delta_j^k = \frac{\partial E}{\partial net_j^k} = \sum_{l=1}^{r_{k+1}} \frac{\partial E}{\partial net_l^{k+1}} \frac{\partial net_l^{k+1}}{\partial net_j^k} = f^\prime(net_j^k)\sum_{l=1}^{r_{k+1}} \delta_l^{k+1} w_{jl}^{k+1} $$

因此，可以从 $\delta_l^{k+1}$ 迭代计算出 $\delta_j^k$ ，换句话说，第 $k$ 层的误差 $\delta_j^k$ 依赖于第 $k+1$ 层的误差 $\delta_l^{k+1}$计算而来。这就是反向传播名称的来源，误差沿着神经网络反向流动，从最后一层流向第一层。一旦计算出了输出层的误差，我们就可以沿着神经网络迭代算出隐藏层的误差，通过乘上一个系数 $f^\prime(net_j^k)$。

计算出误差之后，我们就可以得到梯度的公式，

$$ \frac{\partial E}{\partial w_{ij}^k} = \delta_j^L o_i^{k-1} = g^\prime(net_j^k)o_i^{k-1}\sum_{l=1}^{r_{k+1}} \delta_l^{k+1} w_{jl}^{k+1} $$

注意到在这个公式中，我们需要知道 $net_j^k$ 和 $o_i^{k-1}$，这些需要在前向传播的时候计算并保存。也就是说，每一次迭代中，

首先进行前向传播的计算，根据设定的模型参数，从输入层到输出层，同时保存每一层的 $net_j^k$ 和 $o_j^k$
然后进行反向传播的计算，从输出层开始，以输出层的误差作为输入，计算每一层每个节点中误差的梯度
最后我们通过算出的梯度更新参数的值，然后进入下一次迭代

反向传播

最后在这里梳理下上面推导的公式和整个算法的流程。

对于梯度计算：

$$ \begin{equation} \frac{\partial E}{\partial w_{ij}^k} = \delta_j^k o_i^{k-1} \end{equation} $$

对于输出层的误差计算：

$$ \begin{equation} \delta_j^L = f_o^\prime(net_j) (\hat{y} - y) \end{equation} $$

对于隐藏层的误差计算：

$$ \begin{equation} \delta_j^k = g_0^\prime(net_{j}^k) \sum_{l=1}^{r^{k+1}} w_{jl}^{k+1} \delta_l^{k+1} \end{equation} $$

将所有的误差结合起来：

$$ \begin{equation} \frac{\partial E(\theta)}{\partial w_{ij}^k} = \frac{1}{N} \sum_{d=1}^N \frac{\partial}{\partial w_{ij}^k} ( \frac{1}{2} (\hat{y_d} - y_d)^2 ) = \frac{1}{N} \sum_{d=1}^N \frac{\partial E_d}{\partial w_{ij}^k} \end{equation} $$

更新参数：

$$ \begin{equation} \Delta w_{ij}^k = -\alpha \frac{\partial E(\theta)}{\partial w_{ij}^k} \end{equation} $$

整体流程如下：

随机初始化权值参数 $w_{ij}^k$
前向传播计算，从输入层到输出层，对于第 $k$ 层的第 $j$ 个节点，基于 $w_{ij}^k$ 计算出 $net_j^k$，$o_j^k$ 和 $\hat{y_d}$
反向传播计算，从输出层到输入层，对于第 $k$ 层的第 $j$ 个节点，通过公式 2 和公式 3 计算出 $\delta_j^k$，

然后通过公式 1 计算出梯度 $\frac{\partial E}{\partial w_{ij}^k}$
将所有节点的误差结合起来，通过公式 4 将所有的输出节点的误差结合起来
更新权值参数，根据公式 5 更新权值参数，然后进入第 2 步进行下一轮迭代计算，直到误差收敛

再推理一次

$$ \begin{equation} {\bf{z}}^{(l)} = {\bf{W}}^{(l)} {\bf{a}}^{(l-1)}+{\bf{b}}^{(l)} \end{equation} $$ $$ \begin{equation} {\bf{a}}^{(l)} = g_l ({\bf{z}}^{(l)}) \end{equation} $$

$$ \begin{equation} {\bf{a}}^{(l)} = f_l({\bf{a}}^{(l-1)},{\bf{\theta}}^{(l)}) \end{equation} $$ $$ \begin{equation} {\bf{x}} = {\bf{a}}^{(0)} \to {\bf{z}}^{(1)} \to {\bf{a}}^{(1)} \to {\bf{z}}^{(2)} \to \dots \to {\bf{a}}^{(L-1)} \to {\bf{z}}^{(L)} \to {\bf{a}}^{(L)} = \phi({\bf{x}};{\bf{W}},{\bf{b}}) = \hat{y} \end{equation} $$

$$ \begin{equation} L = \sum_{i}(y_i - f_{L}(f_{L-1}(\cdots f_1(x_i, \theta_1),\theta_{L-1}),\theta_L)) \end{equation} $$ $$ \begin{equation} {\bf{x}} = {\bf{a}}^{(0)} \xrightarrow{f_1} {\bf{a}}^{(1)} \xrightarrow{f_2} \dots \xrightarrow{f_{L-1}} {\bf{a}}^{(L-1)} \xrightarrow{f_{L}} {\bf{a}}^{(L)} \to L(\hat{y}, y) \end{equation} $$

$$ \frac{dL}{d\theta^{(l)}} = \frac{dL}{da^{(l)}} \frac{da^{(l)}}{d\theta^{(l)}} = \frac{dL}{da^{(l)}} \frac{f_{l}(\theta)}{d\theta_i} $$

$$ \begin{equation} L = \mathcal{L}(y, \hat{y}) \end{equation} $$

$$ \begin{equation} {\bf{W}}^{(l)} - \alpha \frac{\partial{L}}{\partial{\bf{{W}}^{(l)}}} \end{equation} $$

$$ \begin{equation} dW^{(l)} = \frac{\partial{L}}{\partial{W^{(l)}}} = \frac{\partial{L}}{\partial{z^{(l)}}} \frac{\partial{z^{(l)}}}{\partial{W^{(l)}}} = dz^{(l)}\cdot a^{(l-1)} \end{equation} $$

$$ \begin{equation} dz^{(l)} = \frac{\partial{L}}{\partial{z^{(l)}}} = \frac{\partial{L}}{\partial{a^{(l)}}} \cdot \frac{\partial{a^{(l)}}}{\partial{z^{(l)}}} = da^{(l)} * f_l^{\prime}(z^{(l)}) \end{equation} $$

$$ \begin{equation} da^{(l)} = \frac{\partial{L}}{\partial{a^{(l)}}} = \frac{\partial{L}}{\partial{z^{(l+1)}}} \cdot \frac{\partial{z^{(l+1)}}}{\partial{a^{(l)}}} = dz^{(l+1)}\cdot W^{(l+1)} \end{equation} $$

$$ \begin{equation} \frac{\partial{z^{(l)}}}{\partial{W^{(l)}}} = a^{(l-1)} \end{equation} $$

$$ \begin{equation} dz^{(l)} = dz^{(l+1)}W^{(l+1)} * f_l^{\prime}(z^{(l)}) \end{equation} $$

Activations

Optimizer

Adam Optimizer

$$m_t = \beta_1 * m_{t-1} + (1-\beta_1) * \nabla w_t$$

$$v_t = \beta_2 * v_{t-1} + (1-\beta_2) * (\nabla w_t)^2$$

$$\hat{m_t} = \frac{m_t}{1-\beta_1^t}$$ $$\hat{v_t} = \frac{v_t}{1-\beta_2^t}$$

$$w_{t+1} = w_t - \eta \frac{\hat{m_t}}{\sqrt{\hat{v_t} + \epsilon}}$$