记忆能力
-
延时神经网络:非输出层前增加延时器
- 在时间维度上共享权值
-
有外部输入的非线性网络:每个时刻 有一个外部输入,产生一个输出
- 自回归模型:
- 有外部输入的非线性自回归模型:
-
循环神经网络:
-
循环神经网络的通用近似定理(2009):以任何准确率近似任何一个非线性动力系统
-
图灵完备(1991):所有图灵机可以被一个由使用 Sigmoid 型激活函数的神经元构成的全连接循环网络进行模拟
-
-
外部记忆单元
RNN
- 简单神经网络
- 应用模式
- 序列到类别
- 按不同时刻输入到网络中
- 序列特征: or
- 同步序列到序列(序列标注)
- 按不同时刻输入到网络中
- 异步序列到序列(编码器-解码器)
- 按不同时刻输入到网络(编码器)中
- 按不同时刻输入到网络(解码器)中,初始隐状态为
- 序列到类别
- 随时间反向传播(BPTT):每层对应每个时刻
- 在一次完整前向传播和反向计算后才能更新参数
- 实时循环学习(RTRL)
- 堆叠循环神经网络(SRNN)
- 循环多层感知机(1991):
- 双向循环神经网络(Bi-RNN)
长程依赖问题
- 长程依赖问题
- 梯度消失: 梯度消失,参数 更新主要靠相邻状态
- : 梯度爆炸,记忆容量不足
- 梯度爆炸:不稳定
- 长短期记忆网络(LSTM, 2000)
- 内部状态
- 外部状态
- 门
- 遗忘门 控制内部状态遗忘多少信息
- 输入门 控制候选状态保存多少信息
- 输出门 控制内部状态输出多少给外部状态
- 候选状态
- LSTM 变体
- 无遗忘门(1997)
- peephole 连接:三个门同时依赖于上一时刻记忆单元
- 耦合输入门与遗忘门:
- 门控循环网络(GRU, 2014)
- 更新门
- 重置门
- 候选状态
图结构
- 递归神经网络(RecNN):
- 建模自然语言句子的语义
- 图神经网络(GNN)
- 读出函数: