数据准备
导入arrhythmia
数据集,进行预处理:
SVM建模
对前九个变量进行枚举,建立SVM模型并计算准确率:
结果为:
Age, years | Sex (0=male, 1=female) | Height, cm | Weight, kg | QRS duration | P-R interval | Q-T interval | T interval | P interval | |
---|---|---|---|---|---|---|---|---|---|
1 | 0.6238 | 0.5643 | 0.5643 | 0.6667 | 0.5643 | 0.5643 | 0.6405 | 0.5643 | |
2 | 0.6238 | 0.6238 | 0.6310 | 0.6238 | 0.6238 | 0.6167 | 0.6238 | ||
3 | 0.5690 | 0.6667 | 0.5667 | 0.5643 | 0.6429 | 0.5667 | |||
4 | 0.6786 | 0.5643 | 0.5643 | 0.6333 | 0.5643 | ||||
5 | 0.6548 | 0.6619 | 0.6786 | 0.6548 | |||||
6 | 0.5643 | 0.6429 | 0.5643 | ||||||
7 | 0.6429 | 0.5643 | |||||||
8 | 0.6405 | ||||||||
9 |
结果显示,特征4、5,即体重与QRS时限识别患者效果最好。将数据载入Classification Learner
工具包,选取变量4、5进行详细计算,结果如下:
结果
$$
beta_1=-0.0326236821799308,beta_2=0.122790292956408
$$
$$
beta_0=-0.327696983814950
$$
散点图
混淆矩阵
由图可知,模型的假阴性率较高,灵敏度不足。
ROC曲线
AUC值略高于0.7,分类效果一般。
总结
两个特征似乎不足以识别心律失常者。应增加特征选择,或采用新的方法。经检验,将全部278个变量加入建模可将准确率提高到75%,而采用神经网络模式识别可将准确率提高到90%以上。