Cluster

性能度量

性能度量，有效性指标 validity index
外部指标：与某个参考模型比较
- 簇划分： $\mathcal{C}=\{C_1,C_2,\cdots,C_k\}$ $C = {C_{1}, C_{2}, \dots, C_{k}}$ , 参考模型簇划分 $\mathcal{C}^*=\{C_1^*,C_2^*,\cdots,C_s^*\}$ $C^{*} = {C_{1}^{*}, C_{2}^{*}, \dots, C_{s}^{*}}$ , $\lambda,\lambda^*$ $λ, λ^{*}$ 为分别为两者簇标记向量，定义
  - $a=|\text{SS}|,\text{SS}=\{(x_i,x_j)|\lambda_i=\lambda_j,\lambda_i^*=\lambda_j^*,i<j\}$
  - $b=|\text{SD}|,\text{SD}=\{(x_i,x_j)|\lambda_i=\lambda_j,\lambda_i^*\not=\lambda_j^*,i<j\}$
  - $c=|\text{DS}|,\text{DS}=\{(x_i,x_j)|\lambda_i\not=\lambda_j,\lambda_i^*=\lambda_j^*,i<j\}$
  - $d=|\text{DD}|,\text{DD}=\{(x_i,x_j)|\lambda_i\not=\lambda_j,\lambda_i^*\not=\lambda_j^*,i<j\}$
  - $a+b+c+d=\frac{m(m-1)}{2}$
- JC (Jaccard Coefficent)
  - $\text{JC}=\frac{a}{a+b+c}$
- FMI (Fowlkes and Mallows Index)
  - $\text{FMI}=\sqrt{\frac{a}{a+b}\frac{a}{a+c}}$
- RI (Rand Index)
  - $\text{RI}=\frac{2(a+d)}{m(m-1)}$
内部指标
- 簇划分： $\mathcal{C}=\{C_1,C_2,\cdots,C_k\}$ $C = {C_{1}, C_{2}, \dots, C_{k}}$
  - $\text{avg}(C)=\frac{2}{|C|(|C|-1)}\sum_{1\leq i<j\leq|C|}\text{dist}(x_i,x_j)$ 簇内样本平均距离
  - $\text{diam}(C)=\max_{1\leq i<j\leq|C|}\text{dist}(x_i,x_j)$ 簇内样本间最远距离
  - $d_{\min}(C_i,C_j)=\min_{x_i\in C_i,x_j\in C_j}\text{dist}(x_i,x_j)$
  - $d_{\text{cen}}(C_i,C_j)=\text{dist}(\mu_i,\mu_j)$
- DBI (Davies-Bouldin Index)
  - $\text{DBI}=\frac{1}{k}\sum_{i=1}^k\max_{j\not=i}(\frac{\text{avg}(C_i)+\text{avg}(C_j)}{d_{\text{cen}}(C_i,C_j)})$ 越小越好
- DI (Dunn Index)
  - $\text{DI}=\min_{1\leq i\leq k}(\min_{j\not=i}(\frac{d_{\min}(C_i,C_j)}{\max_{1\leq l\leq k}\text{diam}(C_l)}))$ 越大越好

原型聚类

SOM: self-organizing maps

k-means

最小化平均误差 $E=\sum_{i=1}^k\sum_{x\in C_i}||x-\mu_i||_2^2$ ( $\text{NP}$ -hard)
贪心策略：迭代优化
k-medoids: represented by objects near center

LVQ

Learning Vector Quantization 学习向量量化

利用样本监督信息
每次迭代，每个样本对其最近的原型向量根据标记一致性做推动/吸引
每个原型向量 $p_i$ 定义了与之相关的一个区域 $R_i$ ，形成了对样本空间的 Voronoi tessellation

高斯混合聚类

高斯混合分布： $p_M(x)=\sum_{i=1}^k\alpha_ip(x|\mu_i,\Sigma_i),\sum_{i=1}^k\alpha_i=1$
EM 算法求解
- $\text{LL}(D)=\ln(\prod p_M)=\sum_{j=1}^m\ln(\sum_{j=1}^k\alpha_i p(x_j|\mu_i,\Sigma_i))$
- E: $\gamma_{ji}=p_M(z_j=i|x_j)$
- M
  - $\mu_i'=\frac{\sum{\gamma_{ji}x_j}}{\sum_{j=1}^m\gamma_{ji}}$
  - $\Sigma_i'=\frac{\sum\gamma_{ji}(x_j-\mu_i')(x_j-\mu_i)^T}{\sum\gamma_{ji}}$
  - $\alpha_i'=\frac{\sum\gamma_{ji}}{m}$

密度聚类

假设聚类结构能通过样本分布的紧密程度确定

DBSCAN

$\epsilon$ -邻域： $N_\epsilon(x_i)=\{x_i\in D|\text{dist}(x_i,x_j)\leq\epsilon\}$
核心对象: $x_j,|N_\epsilon(x_j)|\geq\text{MinPts}$
directly denisty-reachable: $x_j\in N_\epsilon(x_i)$ 且 $x_i$ 为核心对象，则 $x_j$ 由 $x_i$ 密度可达（无对称性）
density-reachable
density-connected: $\exists x_k$ , $x_i,x_j$ 均由 $x_k$ 密度可达
簇为满足下列性质最大集合
- connectivity: $x_i\in C, x_j\in C$ 则 $x_i,x_j$ 密度相连
- maximality: $x_i\in C$ , $x_j$ 由 $x_i$ 密度可达则 $x_j\in C$
算法:
1. 找出所有核心对象
2. 对每个核心对象求 $X=\{x'\in D|x'$ 由 $x$ 密度可达 $\}$

DIANA

top down

层次聚类

自底向上或自顶向下

AGNES

agglomerative nesting

自底向上
起初每个样本点为一个簇
不断合并最近两个簇

name	d
single-linkage	min
complete-linkage	max
average-linkage	avg

Table of Contents

Table of Contents

Cluster

性能度量

原型聚类

k-means

LVQ

高斯混合聚类

密度聚类

DBSCAN

DIANA

层次聚类

AGNES