1-Perceptron

Perceptron

1957

模型： $\hat y=\text{sgn}(\omega^\top x)$
参数学习：错误驱动在线学习算法
- $\omega\leftarrow 0$
- 对于 $y\omega^\top x<0,\omega\leftarrow \omega+yx$
- $L(\omega;x,y)=\max(0,-y\omega^\top x)$
感知机收敛性： $\mathcal{D}=\{(\mathbf{x}^{(n)},y^{(n)})\}_{n=1}^N,R=\max_n\|x^{(n)}\|$ ，若 $\mathcal{D}$ 可分，则两类感知机权重更新不超过 $\frac{R^2}{\gamma^2}$

Sigmoid 型函数：两端饱和函数
- Logistic: $\sigma(x)=\frac{1}{1+\exp(-x)}$
- Tanh: $\tanh(x)=2\sigma(2x)-1=\frac{\exp(x)-\exp(-x)}{\exp(x)+\exp(-x)}$
- 计算开销较大
hard-logistic $(x)=\max(\min(0.25x+0.5,1),0)$
hard-Tanh $(x)=\max(\min(x,1),-1)$
ReLU $(x)=\max(0,x)$ $(x) = max (0, x)$
- 计算高效
- 生物学合理性：单侧抑制、宽兴奋边界
- 非零中心化：偏置偏移
- 死亡 ReLU 问题
LeakyReLU $(x)=\max(x,\gamma x)$
带参数 ReLU，对于第 $i$ 个神经元：PReLU $_i(x)=\max(0,x)+\gamma_i\min(0,x)$
Exponential Linear Unit: ELU $(x)=\max(0,x)+\min(0,\gamma(\exp(x)-1))$ $(x) = max (0, x) + min (0, γ (exp (x) - 1))$
- 近似零中心化
Softplus $(x)=\log(1+\exp(x))$
Swish $(x)=x\sigma(\beta x)$
GELU $(x)=xP(X\leq x),P(X\leq x)$ 为高斯累积分布函数
Maxout $(x)=\max_{k\in[1,K]}(z_k),z_k=\omega_k^\top x+b_k$ $(x) = max_{k \in [1, K]} (z_{k}), z_{k} = ω_{k}^{⊤} x + b_{k}$
- 输入为向量