距离
有序距离
- 闵可夫斯基距离:l=(∑i=1n∣xi−yi∣p)p1
- 切比雪夫距离:l∞=maxi=1n∣xi−yi∣
- 欧几里得距离:l2=∑i=1n(xi−yi)2
- 曼哈顿距离:l1=∑i=1n∣xi−yi∣
- 加权闵可夫斯基距离:l=(∑i=1nwi∣xi−yi∣p)p1
- 马氏距离:d(x,y)=(x−y)TS−1(x−y)
- S: 协方差矩阵
- distmah2(xi,xj)=(xi−xj)TM(xi−xj)=∣∣xi−xj∣∣M2,度量矩阵 M 为半正定矩阵
- M=PPT
- ∥xi−xj∥M=∥PTxi−PTxj∥
- 余弦距离:d(x,y)=∣x∣∣y∣<x,y>
离散距离
簇
- VDM(Value Difference Metric)
- mu,a: 在属性 u 上取值为 a 的样本数
- mu,a,i: 第i个样本簇在属性为 a 的样本数
- VDMp(a,b)=∑i=1k∣mu,amu,a,i−mu,bmu,b,i∣
- MinkovDMp=(∑∣xiu−xju∣p+∑VDMp(xiu,xju))p1
字符串
- 海明距离
- Lee 距离
- Levenshtein (编辑距离)
leva,b={max(i,j);min(i,j)=0min(leva,b(i−1,j)+1,leva,b(i,j−1)+1,leva,b(i−1,j−1)+[ai=bi])
非度量距离
不满足三角不等式(相似度度量无需满足三角不等式)
两组点集的相似程度
- Hausdorff 距离
- distH(X,Z)=max(disth(X,Z),disth(Z,X))
- disth(X,Z)=maxx∈Xminz∈Z∣∣x−z∣∣2
NCA
Neighbourhood Component Analysis 近邻成分分析
- 近邻分类器中 xj 对 xi 分类结果影响概率为:pij=∑le−∥xi−xj∥M2e−∥xi−xj∥M2
- xi LOO 正确率:pi=∑j∈Ωipij, Ωi 为相同类别下标
- 训练集 LOO 正确率:∑i=1mpi=∑i=1m∑j∈Ωipij
- minP1−∑i=1m∑j∈Ωi∑lexp(−∣∣PTxi−PTxl∣∣22)exp(−∣∣PTxi−PTxj∣∣22)
领域知识
必连约束M,勿连约束C
Mmins.t.(xi,xj)∈M∑∥xi−xj∥M2(xi,xk)∈C∑∥xi−xk∥M≥1M⪰0
LMNN
Large Margin Nearest Neighbors
- k 个目标邻居相近,入侵样本远离
- 目标邻居:最近的同类别样本
- 入侵样本:最近中的非同类别样本
min∗Ms.t.i,j∈N∗i∑d(xi,xj)+i,j,l∑ξijl∀i,j∈Nk,l,yl=yid(xi,dj)+1≤d(xi,xl)+ξijlξijl≥0M⪰0