FNN 前向神经网络/全连接神经网络/多层感知机 前向传播 z(l)=W(l)a(l−1)+b(l)z^{(l)}=W^{(l)}a^{(l-1)}+b^{(l)}z(l)=W(l)a(l−1)+b(l) a(l)=fl(z(l))a^{(l)}=f_l(z^{(l)})a(l)=fl(z(l)) 通用近似定理(Universal Approximation Theorem,1989) ϕ(⋅)\phi(\cdot)ϕ(⋅) 是一个非常数、有界、单调递增的连续函数,JDJ_DJD 是一个 DDD 维的单位超立方体 [0,1]D[0,1]^D[0,1]D,C(JD)C(J_D)C(JD) 是定义在 JDJ_DJD 上的连续函数集合 ∀f∈C(JD),∃M∈Z,vm,bm∈R,ωm∈RD\forall f\in C(J_D),\exists M\in\mathbb{Z},v_m,b_m\in\mathbb{R},\omega_m\in\mathbb{R}^D∀f∈C(JD),∃M∈Z,vm,bm∈R,ωm∈RD, 有函数 F(x)=∑m=1Mvmϕ(ωm⊤x+bm)F(x)=\sum_{m=1}^Mv_m\phi(\omega_m^\top x+b_m)F(x)=∑m=1Mvmϕ(ωm⊤x+bm) ∣F(x)−f(x)∣<ϵ,∀x∈JD,ϵ|F(x)-f(x)|<\epsilon,\forall x\in J_D,\epsilon∣F(x)−f(x)∣<ϵ,∀x∈JD,ϵ 为很小正数 在 RD\mathbb{R}^DRD 有界闭集上依然成立 𝕀i(t)𝕀_i(t)Ii(t): 第 iii 个元素为 ttt 其余为 000 的行向量 反向传播算法 δi(l)=∂L∂z(l)=∂L∂z(l+1)∂z(l+1)∂a(l)∂a(l)∂z(l)=δi+1(Wl+1)⊤diag(f′(z(l)))∈RMl\delta_i^{(l)}=\frac{\partial L}{\partial z^{(l)}}=\frac{\partial L}{\partial z^{(l+1)}}\frac{\partial z^{(l+1)}}{\partial a^{(l)}}\frac{\partial a^{(l)}}{\partial z^{(l)}}=\delta_{i+1}(W^{l+1})^\top\text{diag}(f'(z^{(l)}))\in\mathbb{R}^{M_l}δi(l)=∂z(l)∂L=∂z(l+1)∂L∂a(l)∂z(l+1)∂z(l)∂a(l)=δi+1(Wl+1)⊤diag(f′(z(l)))∈RMl dL=tr(∂L∂z(l)dz(l))=tr((a(l−1))⊤δ(l)dW)⇒L(y,y^)∂W(l)=δ(l)(a(l−1))⊤dL=\text{tr}(\frac{\partial L}{\partial z^{(l)}}dz^{(l)})=\text{tr}((a^{(l-1)})^\top\delta^{(l)}dW)\Rightarrow\frac{L(y,\hat y)}{\partial W^{(l)}}=\delta^{(l)}(a^{(l-1)})^\topdL=tr(∂z(l)∂Ldz(l))=tr((a(l−1))⊤δ(l)dW)⇒∂W(l)L(y,y^)=δ(l)(a(l−1))⊤ 自动梯度计算 数值微分 符号微分 自动微分:f:RN→RMf:\mathbb{R}^N\rightarrow\mathbb{R}^Mf:RN→RM 前向模式:NNN 反向模式:MMM 优化 非凸优化问题 梯度消失问题 梯度弥散问题