半监督学习
- 自训练(Self-Training, Self-Teaching, Bootstrapping):先用标注数据训练一个模型,将预测置信度较高的样本的位标签加入训练集重新训练
- 协同训练(Co-Training):基于不同视角的分类器促进训练
- 在训练集上根据不同视角分别训练两个模型 f1 和 f2
- 在无标注训练集上预测,各选取预测置信度比较高的样本加入训练集,重新训练两个不同视角的模型
多任务学习
- 多任务学习:归纳迁移学习的一种,利用相关任务中的信息作为归纳偏置提高泛化能力
- 共享模式
- 硬共享模式:让不同任务的神经网络共同使用一些共享模块提取通用特征
- 软共享模式:每个任务从其它任务获得一些信息(如隐状态、注意力机制)
- 层次共享模式:一般神经网络中不同层抽取的特征类型不同,低层一般抽取一些低级的局部特征,高层抽取一些高级的抽象语义特征
- 共享-私有模式:将共享模块和任务特定(私有)模块的责任分开
迁移学习
- 领域:一个样本空间极其分布 D=(X,Y,p(x,y))
- 机器学习任务:建模 D 上的条件概率 p(y∣x)
Inductive Trasfer Learning
Different Tasks: pS(y∣x)=pT(y∣x),pS(x)=pT(x)
- Multi-task Learning: Source Domain Labels are available
- Self-taught Learning: Source Domain Labels are unavailable
- feature based: learn good feature on source
- fine-tuning: pretrain model
Transductive Transfer Learning
pS(x,y)=pT(x,y),假设源领域有大量标记数据,目标领域有无标记数据
- Domain Adaptation: 协变量偏移 pS(x)=pT(x),pS(y∣x)=pT(y∣x)
- 学习 domain-invariant feature 使得学习到的特征不受限于 Source Domain 而导致 over-fitting,缩小 co-variant shift
- 协变量 Covariate:可能影响预测结果的统计变量,机器学习中可以看作输入
- 概念偏移:different tasks pS(y∣x)=pT(y∣x) with pS(x)=pT(x)
- 先验偏移:pS(y)=pT(y),pS(x∣y)=pT(x∣y)
Unsupervised Transfer Learning
No labeled data in both source and target domain
Domain Adaptation
- 学习模型 f:X→Y
- RT(θf)=E(x,y)∼pS(x,y)pS(x)pT(x)(L(f(x;θf),y))
- 领域无关表示 Domain-Invariant:g:X→Rd
- pS(g(x;θg))=pT(g(x;θg)),∀x∈X
- RT(θf,θg)=E(x,y)∼pS(x,y)([L(f(g(x;θg);θg),y)])+γdg(S,T)
- 分布差异
- MMD(Maximum Mean Discrepancy)
- CMD(Central Moment Discrepancy)
- 对抗学习(Adverserial)
- 判别器 c(h,θc):Lc(θg,θc)=N1∑n=1Nlogc(hS(n),θc)+M1∑m=1Mlog(1−c(xD(m),θc))
- 特征提取:dg(S,T)=Lc(θf,θc)
终身学习(持续学习)
-
通过历史任务 T1,T2,⋯,Tm 学习 Tm+1
-
避免灾难性遗忘:按照一定顺序学习多个任务时,在学习新任务的同时不忘记先前学 会的历史任务
-
弹性权重巩固(2017)
- logp(θ∣D)=logp(DB∣θ)+logp(θ∣DA)−logp(DB)
- 假设 p(θ∣DA) 为高斯分布,期望为任务 TA 上学习到的参数 θA,精度矩阵(协方差矩阵的逆)为 θ 在 DA 上的 Fisher 信息矩阵近似,p(θ∣DA)=N(θA,F−1)
- Fisher 信息矩阵:测量似然函数 p(x,θ) 携带的关于参数 θ 信息量的方法,对角线反应了最大似然估计时的不确定性,值越大,参数估计值方差越小,越有可靠性
打分函数:s(θ)=∇θlogp(x;θ)
- E(s(θ))=0
- Fisher 信息矩阵:s(θ) 的协方差矩阵,F(θ)=E(s(θ)s(θ)⊤)
- L(θ)=LB(θ)+∑i=1N2λFiA(θi−θA,i∗)2
元学习
- 元学习
- 基于优化器
- 优化器:gt(⋅)
- 更新规则:θt+1=θt+gt(∇L(θt);ϕ)
- L(ϕ)=Ef(∑t=1TωtL(θt))
- θt=θt−1+gt
- [gt;ht]=LSTM(∇L(θt−1,ht−1;ϕ))
- 模型无关(MAML):假设所有任务来源任务空间 p(T)
- θm′=θ−α∇θLTm(fθ)
- 学习一个参数 θ 使得其经过一个梯度迭代就可以在新任务上达到最好的性能:minθ∑Tm∼p(T)LTm(fθm′)
- 小样本学习
- k-shot: 每个类只有 K 个标注样本
- t-way: t classes