性能度量
- 性能度量,有效性指标 validity index
- 外部指标:与某个参考模型比较
- 簇划分:C={C1,C2,⋯,Ck}, 参考模型簇划分 C∗={C1∗,C2∗,⋯,Cs∗},λ,λ∗ 为分别为两者簇标记向量,定义
- a=∣SS∣,SS={(xi,xj)∣λi=λj,λi∗=λj∗,i<j}
- b=∣SD∣,SD={(xi,xj)∣λi=λj,λi∗=λj∗,i<j}
- c=∣DS∣,DS={(xi,xj)∣λi=λj,λi∗=λj∗,i<j}
- d=∣DD∣,DD={(xi,xj)∣λi=λj,λi∗=λj∗,i<j}
- a+b+c+d=2m(m−1)
- JC (Jaccard Coefficent)
- JC=a+b+ca
- FMI (Fowlkes and Mallows Index)
- FMI=a+baa+ca
- RI (Rand Index)
- RI=m(m−1)2(a+d)
- 内部指标
- 簇划分:C={C1,C2,⋯,Ck}
- avg(C)=∣C∣(∣C∣−1)2∑1≤i<j≤∣C∣dist(xi,xj) 簇内样本平均距离
- diam(C)=max1≤i<j≤∣C∣dist(xi,xj) 簇内样本间最远距离
- dmin(Ci,Cj)=minxi∈Ci,xj∈Cjdist(xi,xj)
- dcen(Ci,Cj)=dist(μi,μj)
- DBI (Davies-Bouldin Index)
- DBI=k1∑i=1kmaxj=i(dcen(Ci,Cj)avg(Ci)+avg(Cj)) 越小越好
- DI (Dunn Index)
- DI=min1≤i≤k(minj=i(max1≤l≤kdiam(Cl)dmin(Ci,Cj))) 越大越好
原型聚类
- SOM: self-organizing maps
k-means
- 最小化平均误差 E=∑i=1k∑x∈Ci∣∣x−μi∣∣22 (NP-hard)
- 贪心策略:迭代优化
- k-medoids: represented by objects near center
LVQ
Learning Vector Quantization 学习向量量化
- 利用样本监督信息
- 每次迭代,每个样本对其最近的原型向量根据标记一致性做推动/吸引
- 每个原型向量 pi 定义了与之相关的一个区域 Ri,形成了对样本空间的 Voronoi tessellation
高斯混合聚类
- 高斯混合分布:pM(x)=∑i=1kαip(x∣μi,Σi),∑i=1kαi=1
- EM 算法求解
- LL(D)=ln(∏pM)=∑j=1mln(∑j=1kαip(xj∣μi,Σi))
- E: γji=pM(zj=i∣xj)
- M
- μi′=∑j=1mγji∑γjixj
- Σi′=∑γji∑γji(xj−μi′)(xj−μi)T
- αi′=m∑γji
密度聚类
假设聚类结构能通过样本分布的紧密程度确定
DBSCAN
- ϵ-邻域:Nϵ(xi)={xi∈D∣dist(xi,xj)≤ϵ}
- 核心对象: xj,∣Nϵ(xj)∣≥MinPts
- directly denisty-reachable: xj∈Nϵ(xi) 且 xi 为核心对象,则 xj 由 xi 密度可达(无对称性)
- density-reachable
- density-connected: ∃xk, xi,xj 均由 xk 密度可达
- 簇 为满足下列性质最大集合
- connectivity: xi∈C,xj∈C 则 xi,xj 密度相连
- maximality: xi∈C, xj 由 xi 密度可达则 xj∈C
- 算法:
- 找出所有核心对象
- 对每个核心对象求 X={x′∈D∣x′由x密度可达}
DIANA
top down
层次聚类
自底向上或自顶向下
AGNES
agglomerative nesting
- 自底向上
- 起初每个样本点为一个簇
- 不断合并最近两个簇
| name |
d |
| single-linkage |
min |
| complete-linkage |
max |
| average-linkage |
avg |