2-FNN

FNN

前向神经网络/全连接神经网络/多层感知机
前向传播
- $z^{(l)}=W^{(l)}a^{(l-1)}+b^{(l)}$
- $a^{(l)}=f_l(z^{(l)})$
通用近似定理（Universal Approximation Theorem,1989)
- $\phi(\cdot)$ 是一个非常数、有界、单调递增的连续函数， $J_D$ 是一个 $D$ 维的单位超立方体 $[0,1]^D$ ， $C(J_D)$ 是定义在 $J_D$ 上的连续函数集合
- $\forall f\in C(J_D),\exists M\in\mathbb{Z},v_m,b_m\in\mathbb{R},\omega_m\in\mathbb{R}^D$ , 有函数 $F(x)=\sum_{m=1}^Mv_m\phi(\omega_m^\top x+b_m)$
- $|F(x)-f(x)|<\epsilon,\forall x\in J_D,\epsilon$ 为很小正数
- 在 $\mathbb{R}^D$ 有界闭集上依然成立
$𝕀_i(t)$ : 第 $i$ 个元素为 $t$ 其余为 $0$ 的行向量
反向传播算法
- $\delta_i^{(l)}=\frac{\partial L}{\partial z^{(l)}}=\frac{\partial L}{\partial z^{(l+1)}}\frac{\partial z^{(l+1)}}{\partial a^{(l)}}\frac{\partial a^{(l)}}{\partial z^{(l)}}=\delta_{i+1}(W^{l+1})^\top\text{diag}(f'(z^{(l)}))\in\mathbb{R}^{M_l}$
- $dL=\text{tr}(\frac{\partial L}{\partial z^{(l)}}dz^{(l)})=\text{tr}((a^{(l-1)})^\top\delta^{(l)}dW)\Rightarrow\frac{L(y,\hat y)}{\partial W^{(l)}}=\delta^{(l)}(a^{(l-1)})^\top$
自动梯度计算
- 数值微分
- 符号微分
- 自动微分： $f:\mathbb{R}^N\rightarrow\mathbb{R}^M$ $f : R^{N} \to R^{M}$
  - 前向模式： $N$
  - 反向模式： $M$
优化
- 非凸优化问题
- 梯度消失问题
- 梯度弥散问题