机器学习模型评估之ROC曲线和AUC

陈华 • 2022年05月12日 • 人工智能 • 阅读 811

上一篇文章中介绍了常用的模型评估指标，但一个好的模型，往往追求的是多个指标的平衡，而非某一个指标的大小。本文介绍的ROC，可以直观的展示评估效果。

ROC曲线

在ROC曲线中，横轴是假正例率（FPR），纵轴是真正例率（TPR）。

假正利率（False Posive Rate）FPR = FP/(FP+TN)，代表分类器预测错的正样本，占实际负样本的比例。

真正利率（True Posive Rate）FPR = TP/(TP+FN)，即召回率。

ROC曲线需要相应阈值进行绘制。

AUC面积

AUC (Area under Curve)：ROC曲线下的面积，介于0.1和1之间，作为数值可以直观的评价分类器的好坏，值越大越好，表示找到真实正样本付出的代价越小。

代码示例

1、构建数据集

from matplotlib import pyplot as plt
from sklearn.datasets import make_blobs

class_1 = 500
class_2 = 50
centers = [[0,0], [1,1]]
cluster_std = [1.5, 0.5]

x,y = make_blobs(n_samples=[class_1, class_2], cluster_std=cluster_std, random_state=0)
plt.scatter(x[:,0], x[:,1], c=y, s=40)
plt.show()

2、建立模型，查看置信度（类似概率）

from sklearn.svm import SVC

clf = SVC(probability=True).fit(x,y)
prob = clf.predict_proba(x)
# 两列值分别代表两个类别的概率
print(prob)

3、画ROC曲线

from sklearn.metrics import roc_curve
import numpy as np

# pos_label表示正样本的类别
fpr, tpr, thresholds = roc_curve(y, prob[:, 1], pos_label=1)

# 最佳阈值，希望tpr尽量小，fpr尽量大
idx = np.argmax(tpr-fpr)
threshold = thresholds[idx]
print('最佳阈值：', threshold)

plt.scatter(fpr[idx], tpr[idx], c='r', s=50)
plt.plot([0,1], [0,1], c='k', linestyle='--')
plt.plot(fpr, tpr)
plt.show()

4、获取AUC面积

from sklearn.metrics import roc_auc_score as AUC
score = AUC(y, prob[:,1])
print('AUC score：', score) #0.99164

本文为陈华原创，欢迎转载，但请注明出处：http://www.ichenhua.cn/read/288

机器学习模型评估之ROC曲线和AUC

ROC曲线

AUC面积

代码示例

陈华编程

关于我们

合作平台

相关网站

联系我们