生物数据挖掘·聚类

1.计算差异

(a) Numerical (interval-scaled) variables:

欧氏距离;绝对值距离等

(b) Asymmetric binary variables

i/j 1 0 sum
1 q r q+r
0 s t s+t
sum q+s r+t p

$$
d(i,j)=\frac{r+s}{r+s+q}
$$

(c) Categorical variables

$$
d(i,j)=\frac{p-m}{p}
$$
where m is the number of matches, and p is the total number of variables.

(d) Ratio-scaled variables

  • 转化为Numerical variables
  • 对数变换
  • 等级划分

2.聚类方法

  • 分区方法:构造各种分区,然后按某种标准对其进行评估 例:k-means
  • 层次方法:使用某些条件对数据(或对象)集进行层次分解 例:BIRCH
  • 基于密度:基于连通性和密度函数 例:DBSCAN
  • 基于模型:为每个聚类假设一个模型,其想法是找到该模型彼此之间的最佳拟合 例:EM

3.k-means

(a) {A1}, {B1, A3, B2, B3, C2}, {C1, A2}
(2, 10), (6, 6), (1.5, 3.5)
(b) {A1, C2, B1}, {A3, B2, B3}, {C1, A2}