生物数据挖掘·分类I

1.决策树主要步骤

  • 树从包含所有训练元组的单个根节点开始。
  • 如果元组都来自同一类,则该节点将成为一个叶子,并用该类标记。
  • 否则,将调用属性选择方法来确定拆分标准。这样的方法可以使用启发式或统计量度(例如,信息增益,增益比或基尼系数)来选择“最佳”方式来将元组分离成单独的类别。拆分标准由拆分属性组成,并且还可以指示拆分点或拆分子集,如下所述。
  • 接下来,用分裂准则标记该节点,该准则用作该节点上的测试。分支从节点扩展到拆分标准的每个结果,并且对元组进行相应的分区。这种分区有三种可能的方案。(1)如果splitting属性是离散值,则为该属性的每个可能值扩展一个分支。(2)如果拆分属性A为连续值,则对应于条件A≤拆分点和A>拆分点,将增长两个分支。(3)如果splitting属性是离散值,并且必须生成二叉树(例如,如果使用基尼系数作为选择度量),则该节点处的检验为“ A∈SA?”。其中SA是A的拆分子集。它是A的已知值的子集。如果给定的元组的值aj为A,并且aj∈SA,则满足该节点的测试。
  • 该算法递归为每个分区的元组创建决策树。

停止条件:

  • 如果给定节点上的所有元组都属于同一类,则将该节点转换为标记有该类的叶。
  • 如果没有更多的属性可以创建更多的分区,则可以使用多数表决将给定的节点转换为叶子,并在元组中标记为最常见的类。
  • 如果给定分支没有元组,则使用父节点的多数类创建叶子。

2.朴素贝叶斯主要思想

捕获.PNG

3.

1)

  • 每个元组的计数必须集成到属性选择度量(例如信息增益)的计算中。
  • 考虑计数以确定元组中最常见的类。

2)

捕获.PNG

3)

junior

4.

TP FP TN FN TPR FPR
1 0 5 4 0.2 0
1 1 4 4 0.2 0.2
2 1 4 3 0.4 0.2
3 1 4 2 0.6 0.2
3 2 3 2 0.6 0.4
4 2 3 1 0.8 0.4
4 3 2 1 0.8 0.6
4 4 1 1 0.8 0.8
4 5 0 1 0.8 1
5 5 0 0 1 1

捕获.PNG

5. 课堂已计算

0.0194
0.0876