Deep Learning
A preserved cluster of undergraduate notes grouped by subject area.
13 notes
1-Perceptron
Perceptron 1957 模型:$\hat y=\text{sgn}(\omega^\top x)$ 参数学习:错误驱动在线学习算法 $\omega\leftarrow 0$ 对于 $y\omega^\top x<0,\omega\leftarrow \omega+yx$ $L(\omega;x,y)=\max(0, y\omega^\top x)$...
2-FNN
FNN 前向神经网络/全连接神经网络/多层感知机 前向传播 $z^{(l)}=W^{(l)}a^{(l 1)}+b^{(l)}$ $a^{(l)}=f l(z^{(l)})$ 通用近似定理(Universal Approximation Theorem,1989) $\phi(\cdot)$ 是一个非常数、有界、单调递增的连续函数,$J D$ 是一个 $D$...
3-CNN
卷积 卷积:$Y=W X,y {ij}=\sum {u=1}^U\sum {v=1}^V\omega {uv}x {i u+1,j v+1}$ 互相关:$Y=W\otimes X=\text{rot180}(W) X$ $Y\in\mathbb{R}^{M U+1,N V+1}$ 深度学习中常用互相关代替卷积 卷积层输出长度(神经元数量):$\frac{M...
4-RNN
记忆能力 延时神经网络:非输出层前增加延时器 $h t^{(l)}=f(h t^{(l)},h {t 1}^{(l 1)},\cdots,h^{(l 1)} {t K})$ 在时间维度上共享权值 有外部输入的非线性网络:每个时刻 $t$ 有一个外部输入,产生一个输出 $y t$ 自回归模型:$y t=\omega 0+\sum {k=1}^K\omega k...
5-Optimization and Regularization
Optimization 高维变量非凸优化 鞍点 平坦最小值与尖锐最小值 局部最小解等价性 优化算法 小批量梯度下降(批量,学习率,梯度估计) $g t=\frac{1}{K}\sum {(x,y)\in S t}\frac{\partial L(y,f(x;\theta))}{\partial\theta}$ $\theta\leftarrow\theta...
8-Methodology
半监督学习 自训练(Self Training, Self Teaching, Bootstrapping):先用标注数据训练一个模型,将预测置信度较高的样本的位标签加入训练集重新训练 协同训练(Co Training):基于不同视角的分类器促进训练 在训练集上根据不同视角分别训练两个模型 $f 1$ 和 $f 2$ 在无标注训练集上预测,各选取预测置信度比...
11-Deep-Generative-Network
12-Deep-Reinforce-Network
13-Sequence-Generative
7-Unsupervised Learning
Unsupervised Feature Learning PCA Sparse Coding(字典学习) 自编码器 编码器:$f:\mathbb{R}^D\rightarrow\mathbb{R}^M$ 解码器:$g:\mathbb{R}^M\rightarrow\mathbb{R}^D$ 优化目标:最小化重构错误 $$L=\sum {n=1}^N\|x^...
9-Deep-Relief-Network
玻尔兹曼机 动力系统:描述一个空间中所有点随时间变化情况 Boltzmann Machine: a Stochastic Dynamical System 每个随机变量二值:$X\in\{0,1\}^K$,可观察变量 $V$,隐变量 $H$ 所有结点全连接 每两个变量间影响对称 玻尔兹曼分布:$p(x)=\frac{1}{Z}\exp(\frac{ E(x)...
Deep Learning
Deep Learning 李宏毅课程 李宏毅的主页 第六章 Input FL FL FL Softmax 输出单元 高斯输出分布线性单元 Bernoulli输出分布sigmoid单元 Multinoulli输出分布softmax单元 <! more 隐藏单元 线性整流单元 logistic & tanh maxout RBF 第七章:正则化 岭回归 L1正...
注意力机制与外部记忆
注意力机制 认知神经科学中的注意力 聚焦式注意力 基于显著性的注意力 鸡尾酒会效应 基于显著性的注意力机制:最大汇聚、门控 注意力分布: 输入变量:$[x 1,\cdots,x N]$ 查询变量:$q$ 注意力变量:$z=n$ 选择第 $n$ 个输入变量 注意力打分函数:$s(x,q)$ 加性模型:$s(x,q)=v^\top \tanh(Wx+Uq)$ 点...