Skip to Content
Deep Learning

1-Perceptron

2019-04-14Original-language archivelegacy assets may be incomplete

Perceptron

1957

  • 模型:y^=sgn(ωx)\hat y=\text{sgn}(\omega^\top x)
  • 参数学习:错误驱动在线学习算法
    • ω0\omega\leftarrow 0
    • 对于 yωx<0,ωω+yxy\omega^\top x<0,\omega\leftarrow \omega+yx
    • L(ω;x,y)=max(0,yωx)L(\omega;x,y)=\max(0,-y\omega^\top x)
  • 感知机收敛性:D={(x(n),y(n))}n=1N,R=maxnx(n)\mathcal{D}=\{(\mathbf{x}^{(n)},y^{(n)})\}_{n=1}^N,R=\max_n\|x^{(n)}\|,若 D\mathcal{D} 可分,则两类感知机权重更新不超过 R2γ2\frac{R^2}{\gamma^2}

神经元

  • 神经元
    • 净输入:z=ωx+bz=\omega^\top x+b
    • 活性值:a=f(z)a=f(z)
    • 激活函数:ff

激活函数

  • Sigmoid 型函数:两端饱和函数
    • Logistic: σ(x)=11+exp(x)\sigma(x)=\frac{1}{1+\exp(-x)}
    • Tanh: tanh(x)=2σ(2x)1=exp(x)exp(x)exp(x)+exp(x)\tanh(x)=2\sigma(2x)-1=\frac{\exp(x)-\exp(-x)}{\exp(x)+\exp(-x)}
    • 计算开销较大
  • hard-logistic(x)=max(min(0.25x+0.5,1),0)(x)=\max(\min(0.25x+0.5,1),0)
  • hard-Tanh(x)=max(min(x,1),1)(x)=\max(\min(x,1),-1)
  • ReLU(x)=max(0,x)(x)=\max(0,x)
    • 计算高效
    • 生物学合理性:单侧抑制、宽兴奋边界
    • 非零中心化:偏置偏移
    • 死亡 ReLU 问题
  • LeakyReLU(x)=max(x,γx)(x)=\max(x,\gamma x)
  • 带参数 ReLU,对于第 ii 个神经元:PReLUi(x)=max(0,x)+γimin(0,x)_i(x)=\max(0,x)+\gamma_i\min(0,x)
  • Exponential Linear Unit: ELU(x)=max(0,x)+min(0,γ(exp(x)1))(x)=\max(0,x)+\min(0,\gamma(\exp(x)-1))
    • 近似零中心化
  • Softplus(x)=log(1+exp(x))(x)=\log(1+\exp(x))
  • Swish(x)=xσ(βx)(x)=x\sigma(\beta x)
  • GELU(x)=xP(Xx),P(Xx)(x)=xP(X\leq x),P(X\leq x) 为高斯累积分布函数
  • Maxout(x)=maxk[1,K](zk),zk=ωkx+bk(x)=\max_{k\in[1,K]}(z_k),z_k=\omega_k^\top x+b_k
    • 输入为向量