Skip to Content
Deep Learning

2-FNN

2020-06-14Original-language archivelegacy assets may be incomplete

FNN

  • 前向神经网络/全连接神经网络/多层感知机
  • 前向传播
    • z(l)=W(l)a(l1)+b(l)z^{(l)}=W^{(l)}a^{(l-1)}+b^{(l)}
    • a(l)=fl(z(l))a^{(l)}=f_l(z^{(l)})
  • 通用近似定理(Universal Approximation Theorem,1989)
    • ϕ()\phi(\cdot) 是一个非常数、有界、单调递增的连续函数,JDJ_D 是一个 DD 维的单位超立方体 [0,1]D[0,1]^DC(JD)C(J_D) 是定义在 JDJ_D 上的连续函数集合
    • fC(JD),MZ,vm,bmR,ωmRD\forall f\in C(J_D),\exists M\in\mathbb{Z},v_m,b_m\in\mathbb{R},\omega_m\in\mathbb{R}^D, 有函数 F(x)=m=1Mvmϕ(ωmx+bm)F(x)=\sum_{m=1}^Mv_m\phi(\omega_m^\top x+b_m)
    • F(x)f(x)<ϵ,xJD,ϵ|F(x)-f(x)|<\epsilon,\forall x\in J_D,\epsilon 为很小正数
    • RD\mathbb{R}^D 有界闭集上依然成立
  • 𝕀i(t)𝕀_i(t): 第 ii 个元素为 tt 其余为 00 的行向量
  • 反向传播算法
    • δi(l)=Lz(l)=Lz(l+1)z(l+1)a(l)a(l)z(l)=δi+1(Wl+1)diag(f(z(l)))RMl\delta_i^{(l)}=\frac{\partial L}{\partial z^{(l)}}=\frac{\partial L}{\partial z^{(l+1)}}\frac{\partial z^{(l+1)}}{\partial a^{(l)}}\frac{\partial a^{(l)}}{\partial z^{(l)}}=\delta_{i+1}(W^{l+1})^\top\text{diag}(f'(z^{(l)}))\in\mathbb{R}^{M_l}
    • dL=tr(Lz(l)dz(l))=tr((a(l1))δ(l)dW)L(y,y^)W(l)=δ(l)(a(l1))dL=\text{tr}(\frac{\partial L}{\partial z^{(l)}}dz^{(l)})=\text{tr}((a^{(l-1)})^\top\delta^{(l)}dW)\Rightarrow\frac{L(y,\hat y)}{\partial W^{(l)}}=\delta^{(l)}(a^{(l-1)})^\top
  • 自动梯度计算
    • 数值微分
    • 符号微分
    • 自动微分:f:RNRMf:\mathbb{R}^N\rightarrow\mathbb{R}^M
      • 前向模式:NN
      • 反向模式:MM
  • 优化
    • 非凸优化问题
    • 梯度消失问题
    • 梯度弥散问题