注意力机制
- 认知神经科学中的注意力
- 聚焦式注意力
- 基于显著性的注意力
- 鸡尾酒会效应
- 基于显著性的注意力机制:最大汇聚、门控
- 注意力分布:
- 输入变量:
- 查询变量:
- 注意力变量: 选择第 个输入变量
- 注意力打分函数:
- 加性模型:
- 点积模型:
- 缩放点积模型:
- 双线性模型:
- 注意力分布:
- 软性注意力机制:
- 硬性注意力机制:无法使用反向转播,通常用强化学习训练
- 随机采样
- 键值对注意力
- 输入信息:
- 注意力函数:
- 多头注意力:
- 结构化注意力
- 指针网络(2015):序列到序列模型,输出下标
自注意力模型
- 变长向量序列
- 卷积网络或循环网络编码
- 自注意力模型(内部注意力模型)
- 如果要建立输入序列之间的长距离依赖关系,可以使用以下两种方法:一种方法是增加网络的层数,通过一个深层网络来获取远距离的信息交互,另一种方法是使用全连接网络
- QKV 模式
- 输入序列:
- 输出序列:
- 查询向量:
- 键向量:
- 值向量:
记忆
- 人脑记忆
- 整体效应储存(分布式)
- 周期性
- 长期记忆(结构记忆,知识)
- 短期记忆
- 工作记忆(约 4 组项目)
- 联想记忆:基于联想检索
记忆增强神经网络(MANN/MN)
- 基本模块
- 主网络(控制器)
- 外部记忆单元:分为多个记忆片段
- 读取模块:根据主网络的查询向量 ,读取
- 写入模块:根据主网络的查询向量 和需写入信息 更新
- 按内容寻址:注意力机制
- 端到端记忆网络(MemN2N,2015):外部记忆只读
- 转换成两组记忆片段 分别用来寻址和输出
- 多跳操作:
- 神经图灵机(2014)
- 外部记忆:
- 控制器:神经网络
- 每个时刻 ,接受 输出 ,生成查询向量 ,删除向量 和增加向量
- 读操作:
- 读向量:
- 写操作:
基于神经动力学的联想记忆
- Hopfield 网络
- 状态:
- 更新规则:
- 能量函数:
- 权重对称:
- 稳定性:能量函数多次迭代后收敛
- 吸引点:稳定状态,局部最优点,有限,网络储存的模式
- 信息储存(学习规则):赫布规则
- 储存容量:数量为 的二值神经元网络,总状态数为 ,有效稳定点状态数即储存容量
- Hopfield: 0.14
- 玻尔兹曼机: 0.6 ,收敛较慢