性能度量
- 性能度量,有效性指标 validity index
- 外部指标:与某个参考模型比较
- 簇划分:, 参考模型簇划分 , 为分别为两者簇标记向量,定义
- JC (Jaccard Coefficent)
- FMI (Fowlkes and Mallows Index)
- RI (Rand Index)
- 簇划分:, 参考模型簇划分 , 为分别为两者簇标记向量,定义
- 内部指标
- 簇划分:
- 簇内样本平均距离
- 簇内样本间最远距离
- DBI (Davies-Bouldin Index)
- 越小越好
- DI (Dunn Index)
- 越大越好
- 簇划分:
原型聚类
- SOM: self-organizing maps
k-means
- 最小化平均误差 (-hard)
- 贪心策略:迭代优化
- k-medoids: represented by objects near center
LVQ
Learning Vector Quantization 学习向量量化
- 利用样本监督信息
- 每次迭代,每个样本对其最近的原型向量根据标记一致性做推动/吸引
- 每个原型向量 定义了与之相关的一个区域 ,形成了对样本空间的 Voronoi tessellation
高斯混合聚类
- 高斯混合分布:
- EM 算法求解
- E:
- M
密度聚类
假设聚类结构能通过样本分布的紧密程度确定
DBSCAN
- -邻域:
- 核心对象:
- directly denisty-reachable: 且 为核心对象,则 由 密度可达(无对称性)
- density-reachable
- density-connected: , 均由 密度可达
- 簇 为满足下列性质最大集合
- connectivity: 则 密度相连
- maximality: , 由 密度可达则
- 算法:
- 找出所有核心对象
- 对每个核心对象求 由密度可达
DIANA
top down
层次聚类
自底向上或自顶向下
AGNES
agglomerative nesting
- 自底向上
- 起初每个样本点为一个簇
- 不断合并最近两个簇
| name | d |
|---|---|
| single-linkage | min |
| complete-linkage | max |
| average-linkage | avg |