1.决策树主要步骤
- 树从包含所有训练元组的单个根节点开始。
- 如果元组都来自同一类,则该节点将成为一个叶子,并用该类标记。
- 否则,将调用属性选择方法来确定拆分标准。这样的方法可以使用启发式或统计量度(例如,信息增益,增益比或基尼系数)来选择“最佳”方式来将元组分离成单独的类别。拆分标准由拆分属性组成,并且还可以指示拆分点或拆分子集,如下所述。
- 接下来,用分裂准则标记该节点,该准则用作该节点上的测试。分支从节点扩展到拆分标准的每个结果,并且对元组进行相应的分区。这种分区有三种可能的方案。(1)如果splitting属性是离散值,则为该属性的每个可能值扩展一个分支。(2)如果拆分属性A为连续值,则对应于条件A≤拆分点和A>拆分点,将增长两个分支。(3)如果splitting属性是离散值,并且必须生成二叉树(例如,如果使用基尼系数作为选择度量),则该节点处的检验为“ A∈SA?”。其中SA是A的拆分子集。它是A的已知值的子集。如果给定的元组的值aj为A,并且aj∈SA,则满足该节点的测试。
- 该算法递归为每个分区的元组创建决策树。
停止条件:
- 如果给定节点上的所有元组都属于同一类,则将该节点转换为标记有该类的叶。
- 如果没有更多的属性可以创建更多的分区,则可以使用多数表决将给定的节点转换为叶子,并在元组中标记为最常见的类。
- 如果给定分支没有元组,则使用父节点的多数类创建叶子。
2.朴素贝叶斯主要思想
3.
1)
- 每个元组的计数必须集成到属性选择度量(例如信息增益)的计算中。
- 考虑计数以确定元组中最常见的类。
2)
3)
junior
4.
TP | FP | TN | FN | TPR | FPR |
---|---|---|---|---|---|
1 | 0 | 5 | 4 | 0.2 | 0 |
1 | 1 | 4 | 4 | 0.2 | 0.2 |
2 | 1 | 4 | 3 | 0.4 | 0.2 |
3 | 1 | 4 | 2 | 0.6 | 0.2 |
3 | 2 | 3 | 2 | 0.6 | 0.4 |
4 | 2 | 3 | 1 | 0.8 | 0.4 |
4 | 3 | 2 | 1 | 0.8 | 0.6 |
4 | 4 | 1 | 1 | 0.8 | 0.8 |
4 | 5 | 0 | 1 | 0.8 | 1 |
5 | 5 | 0 | 0 | 1 | 1 |
5. 课堂已计算
0.0194
0.0876