【文件属性】:
文件名称:模型评估-mbse-overview-incose-30-july-2015
文件大小:5.71MB
文件格式:PDF
更新时间:2021-06-09 16:42:32
数据挖掘
第十一章 模型评估
11.1 ROC 曲线
1. ROC 曲线: 接收者操作特征(receiver operating characteristic),roc 曲线上每个点反映着对同一信
号刺激的感受性
横轴:负正类率(false positive rate,FPR)特异度 Specificity
代表分类器预测的正类中实际负实例占所有负实例的比例。1-Specificity
纵轴:真正类率(true positive rate,TPR)灵敏度 Sensitivity(正类覆盖率)
代表分类器预测的正类中实际正实例占所有正实例的比例。Sensitivity
2. 针对二分类问题,将实例分成正类(postive)或者负类(negative)。但是实际中分类时,会出现四种
情况.
(1)若一个实例是正类并且被预测为正类,即为真正类(True Postive TP)
(2)若一个实例是正类,但是被预测成为负类,即为假负类(False Negative FN)
(3)若一个实例是负类,但是被预测成为正类,即为假正类(False Postive FP)
(4)若一个实例是负类,但是被预测成为负类,即为真负类(True Negative TN)
3. 分类模型的性能根据模型正确和错误预测的检验记录计数进行评估,这些计数存放在称作混淆矩
阵(confusion matrix)的表格中
# scikit-learn 计算混淆矩阵
from sklearn.metrics import confusion_matrix
Model.fit(X_train,y_train)
y_pred = Model.predict(X_test) # Model 根据选择的不同模型,写法不同
confmat = confusion_matrix(y_true=y_test, y_pred=y_pred)
print(confmat)
# [[71 1]
# [ 2 40]]
# 绘制混淆矩阵
fig,ax= plt.subplots()
ax.matshow(confmat, cmap=plt.cm.Blues, alpha=0.3)
for i in range(confmat.shape[0]):
for j in range(confmat.shape[1]):
ax.text(x=j, y=i, s=confmat[i,j],va='center', ha='center')
plt.xlabel('predicted label')
plt.ylabel('true label')
plt.show()
列联表如下: