1.计算差异
(a) Numerical (interval-scaled) variables:
欧氏距离;绝对值距离等
(b) Asymmetric binary variables
i/j | 1 | 0 | sum |
---|---|---|---|
1 | q | r | q+r |
0 | s | t | s+t |
sum | q+s | r+t | p |
$$
d(i,j)=\frac{r+s}{r+s+q}
$$
(c) Categorical variables
$$
d(i,j)=\frac{p-m}{p}
$$
where m is the number of matches, and p is the total number of variables.
(d) Ratio-scaled variables
- 转化为Numerical variables
- 对数变换
- 等级划分
2.聚类方法
- 分区方法:构造各种分区,然后按某种标准对其进行评估 例:k-means
- 层次方法:使用某些条件对数据(或对象)集进行层次分解 例:BIRCH
- 基于密度:基于连通性和密度函数 例:DBSCAN
- 基于模型:为每个聚类假设一个模型,其想法是找到该模型彼此之间的最佳拟合 例:EM
3.k-means
(a) {A1}, {B1, A3, B2, B3, C2}, {C1, A2}
(2, 10), (6, 6), (1.5, 3.5)
(b) {A1, C2, B1}, {A3, B2, B3}, {C1, A2}