Skip to Content
Deep Learning

Deep Learning

2018-09-02legacy assets may be incomplete

Deep Learning 李宏毅课程 李宏毅的主页

第六章

Input -> FL -> FL -> FL -> Softmax ->

输出单元

  • 高斯输出分布线性单元
  • Bernoulli输出分布sigmoid单元
  • Multinoulli输出分布softmax单元

隐藏单元

  • 线性整流单元
  • logistic & tanh
  • maxout
  • RBF

第七章:正则化

  • 岭回归
  • L1正则化
  • 约束的范数惩罚
  • 提前终止
  • 参数共享
  • Dropout
  • 滑动平均

第八章:优化

  • 批量与小批量算法
  • 一阶
    • 动量
    • Nesterov 动量
    • AdaGrad
    • RMSProp
    • Adam
  • 二阶
    • 牛顿法
    • 共轭梯度
    • BFGS
  • 批标准化

第九章:CNN

  • CNN的三个关键优势:稀疏交互、参数共享、平移等变
  • 池化
  • 无限强的先验
  • 有效卷积、同卷积、全卷积
  • 非共享卷积
  • Inception 系列
  • LeNet-5

input -> Conv -> pool -> Conv -> pool -> FC -> FC -> Softmax ->

第十章:RNN

  • Deep RNN

技术:Target Delay

  • Bidirectional RNN

  • Pyramid RNN

  • Stack RNN

  • 门控RNN

    • LSTM ct=ztct1+zizc^t = z^t * c^{t-1} + z^{i} * z ht=z0tanh(ct)h^t = z^0 * tanh(c^t)
    • GRU ht=zht+(1z)hh^t = z * h^t + (1-z)*h'
  • 一片论文用遗传算法得到的好结构

语言模型

  • n gram Matrix Factorization: R=VTWR = V^T*W
  • LIST的语言预测 word2vec -> LSTM(300*2) -> FC -> Softmax word2vec和FC可以参数共享

第十一章:实践方法

设计流程

  • 确定目标
  • 尽快建立一个端到端的工作流程,包括估计合适的性能度量
  • 确定性能瓶颈
  • 增量式改动

超参数选择

  • 手动选择
  • 自动选择

隐层单元数量、学习率、卷积核宽度、隐式零填充、权重衰减系数、Dropout比率

Spatial Transformer Layer

变换

缩放 [2, 0; 0, 2]
旋转 [cos, -sin; sin, cos]
Spatial Transformer Layer:
[x y]=[a b;c d][x y]+[e f][x'\ y'] = [a\ b; c\ d][x\ y] + [e\ f]

模型

INPUT - ST - CNN - ST - CNN - ST - CNN - OUTPUT 在TensorFlow图像处理节中,我们通过人工预处理。此处使用了NN代替了人工的处理

HighWay Network & Grid RNN

将RNN竖起来当NN用,增加层数

Highway Network

可看成由GRU改来。自动学习是否要使用某一层。

  • h=σ(Wat1)h' = \sigma(Wa^{t-1}) forget gate
  • z=σ(Wat1)z = \sigma(W'a^{t-1}) z:操控a update比率
  • at=zat1+(1z)ha^t = z*a^{t-1} + (1-z)*h'

Residual Network

可train 150层

  • at1a^{t-1} -> layer -> layer -> h'
  • at=h+at1a^{t} = h' + a^{t-1}

Grid LSTM

两个维度,同时扩展深度和时间
3D Grid LSTM

Recursive Network

Recurrent Network 是其特例
利用先验知识,比如语句结构分析,然后构建

Recursive Neural Tensor Network

Matrix-Vector Recursive Network

Tree LSTM

Conditional Generation

Seq2Seq

----------------X   Y   Z   EOS
                |   |   |   |
f - f - f - f - f - f - f - f
|   |   |   |   |   |   |   |
A   B   C   D   SOS X   Y   Z

Generation

Naive RNN: for sequence, image, etc.
3D-LSTM: Better for image

Conditional Generation

Condition as the first input
Condition as all the input
(Communication) Two layer RNN for input

常见神经网络

  • RBF 网络(Radial Basis Function)

    • 径向基函数
      • 高斯径向基函数:e(xc)2r2e^{-\frac{(x-c)^2}{r^2}}
    • 三层神经网络
      • 隐层激活函数为径向基函数
  • 竞争性网络

    • 稳定性/可塑性二难问题
  • ART 网络(Adaptive Resonance Theory)

    • 内星:可以被训练来识别矢量
    • 外星:可以被训练来产生矢量
    • ART I 型网络
  • SOM 网络(Self-Organizing Map)

  • 级联相关网络

  • Elman 网络

  • Boltzmann 机

  • 深度学习

  • 网络模型

    • M-P 神经元模型: y=f(i=1mωiθ)y=f(\sum_{i=1}^m\omega_i-\theta)
    • Perceptron: 两层神经网络
    • 多层前馈网络:全连接且无跨层连接
  • 误差逆传播算法(Back Propagation)

    • 前向计算
      • Layer1: bh=f(βhγh),βh=i=1dvihxib_h=f(\beta_h-\gamma_h),\beta_h=\sum_{i=1}^dv_{ih}x_i
      • Layer2: y^j=f(αjθj),αh=i=1qwihbi\hat y_j=f(\alpha_j-\theta_j),\alpha_h=\sum_{i=1}^qw_{ih}b_i
      • Loss: Ek=12j=1l(y^jkyjk)2E_k=\frac{1}{2}\sum_{j=1}^l(\hat y_j^k-y_j^k)^2
    • 参数数⽬
      • 权重 vih,whjv_{ih},w_{hj}
      • 阈值 θj,γh(i=1d,h=1q,j=1l)\theta_j,\gamma_h(i=1\cdots d,h=1\cdots q,j=1\cdots l)
      • 共需要 (d+l+1)q+1(d+l+1)q+1 个参数
    • 标准 BP 算法
      • 每次针对单个训练样例更新权值与阈值
      • 参数更新频繁,不同样例可能抵消,需要多次迭代
    • 累计 BP 算法
      • 其优化的⽬标是最⼩化 E=1mk=1mEkE=\frac{1}{m}\sum_{k=1}^mE_k
      • 读取整个训练集一遍才对参数进行更新
  • 缓解过拟合

    • 早停
    • 正则化
  • 跳出局部最小的策略

    • 多组不同的初始参数优化神经网络, 选取误差最小的解作为最终参数
    • 模拟退火技术
    • 随机梯度下降
    • 遗传算法