Machine Learning
A preserved cluster of undergraduate notes grouped by subject area.
12 notes
History
技术浪潮 | | 神经网络 | 支持向量机 | 神经网络 | | | | | | | 年份 | 89 94 | 95 05 | 06 | | 代表性技术 | BP 算法 | 核方法,统计学习理论 | 深度学习 | 生成式与判别式 | | 判别式(discriminative) | 生成式(generative) | | | | | | | 对 $P(c\ve...
Introduction
机器学习 机器学习要素 模型 学习准则 优化算法 数据集:$D=\{x 1,x 2,\cdots,x m\}$ 通常假设全体样本服从一个未知分布 $\mathcal{D}$,且采样 i.i.d 归纳偏好 No Free Lunch Theorem Occam's Razor Ugly Duckling Theorem all vectors are assu...
Linear Model
多元线性回归 $f(x)=\omega^Tx+b$ 决策平面:$f(x;\omega)=0$ 有向距离:$\gamma=\frac{f(x;\omega)}{\|\omega\|}$ 最小二乘法 $\hat\omega^ =\arg\min {\hat\omega}(y X\hat\omega)^T(y X\hat\omega)=(X^TX)^{ 1}X^T...
Decision Tree
决策树算法 当前节点包含样本全部同类:标记为该类 当前样本属性值为空/取值相同:标记为最多一类 属性划分选择 为属性每个值分配一个结点继续执行算法 若某属性值上为空则标记为当前最多一类 划分选择 | 指标名称 | 指标 | 辅助函数 | 例子 | Remark | | | | | | | | Information Gain | $\text{Gain}(D...
Bayesian Classifier
Bayesian decision theory | | 定义 | 最小化分类错误率 | | | | | | loss | $\lambda {ij}$ | $[i=j]$ | | Expected loss | $R(c i\vert x)=\sum {j=1}^N\lambda {ij}P(c j\vert x)$ | $1 P(c\vert x)$ |...
Support Vector Machine
SVM 基本型 划分超平面:$\omega^Tx+b=0$ 点到超平面的距离:$\frac{|\omega^Tx+b|}{||\omega||}$ $$ \begin{cases} \omega^Tx i+b\geq y i, & y i=+1 \newline \omega^Tx i+b\leq y i, & y i= 1 \end{cases} $$ 支...
Essemble Learning
集成学习 个体学习器 同质:基学习器,基学习算法 异质:组件学习器 准确性,多样性 学习器结合可能带来的好处 统计:学习任务假设空间大,多个假设在训练集上达到同等性能,使用单学习器可能因误选而导致泛化性能不佳 计算:降低陷入糟糕局部极小点的风险 表示:某些学习任务的真实假设可能不在当前算法所考虑的假设空间中,使用多学习器可能学得较好的近似 序列化方法 Boo...
Cluster
性能度量 性能度量,有效性指标 validity index 外部指标:与某个参考模型比较 簇划分:$\mathcal{C}=\{C 1,C 2,\cdots,C k\}$, 参考模型簇划分 $\mathcal{C}^ =\{C 1^ ,C 2^ ,\cdots,C s^ \}$,$\lambda,\lambda^ $ 为分别为两者簇标记向量,定义 $a=|...
Dimension Reduction
线性降维 维数灾难 curse of dimensionality 高维空间样本稀疏 计算内积难 MDS Multiple Dimensional Scaling, 多维放缩 样本间距离在低维空间保持 算法 1. 由距离矩阵 $D$ 求内积矩阵:$b {ij}= \frac{1}{2}(D {ij}^2 D {i }^2 D { j}^2+D { }^2)$...
Distance Learning
距离 正定性 对称性 三角不等式 有序距离 闵可夫斯基距离:$l=(\sum {i=1}^n|x i y i|^p)^{\frac{1}{p}}$ 切比雪夫距离:$l \infty=\max {i=1}^n|x i y i|$ 欧几里得距离:$l 2=\sqrt{\sum {i=1}^n(x i y i)^2}$ 曼哈顿距离:$l 1=\sum {i=1}^...
Feature Selection
特征选择方法 冗余特征 去除:减轻负担 保留:对应中间概念 特征选择方法 子集搜索 前向 后向 子集评价 过滤式选择 先过滤,再训练 Relief near hit: 同类样本中最近 near miss: 异类样本中最近 相关统计量(属性$j$): $\delta^j=\sum i \text{diff}(x i^j,x {i,nh}^j)^2+\text{...
Dictionary Learning
稀疏表达 稀疏表达(稀疏编码,字典学习) $x=Az$ 字典 $A$:过完备,一般不独立且不正交 优化目标:$\min {B,\alpha i}\sum i^m||x i B\alpha i|| 2^2+\lambda\sum {i=1}^m||\alpha i|| 1$ 变量交替优化 固定 $B$,LASSO 求解 $\alpha i$ 固定 $\alph...