生物系统建模与分析·SVM

数据准备

导入arrhythmia数据集,进行预处理:

SVM建模

对前九个变量进行枚举,建立SVM模型并计算准确率:

结果为:

Age, years Sex (0=male, 1=female) Height, cm Weight, kg QRS duration P-R interval Q-T interval T interval P interval
1 0.6238 0.5643 0.5643 0.6667 0.5643 0.5643 0.6405 0.5643
2 0.6238 0.6238 0.6310 0.6238 0.6238 0.6167 0.6238
3 0.5690 0.6667 0.5667 0.5643 0.6429 0.5667
4 0.6786 0.5643 0.5643 0.6333 0.5643
5 0.6548 0.6619 0.6786 0.6548
6 0.5643 0.6429 0.5643
7 0.6429 0.5643
8 0.6405
9

结果显示,特征4、5,即体重与QRS时限识别患者效果最好。将数据载入Classification Learner工具包,选取变量4、5进行详细计算,结果如下:

结果

$$
beta_1=-0.0326236821799308,beta_2=0.122790292956408
$$
$$
beta_0=-0.327696983814950
$$

散点图

混淆矩阵

由图可知,模型的假阴性率较高,灵敏度不足。

ROC曲线

AUC值略高于0.7,分类效果一般。

总结

两个特征似乎不足以识别心律失常者。应增加特征选择,或采用新的方法。经检验,将全部278个变量加入建模可将准确率提高到75%,而采用神经网络模式识别可将准确率提高到90%以上。