Sklearn SVM以乳腺癌数据集为例调参

上一篇文章，我们介绍了SVM在不同数据集上的表现，本文以乳腺癌数据集为例，对比SVM不同核函数的效果，并通过调参，优化模型效果。

1、加载数据集

from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()
x = cancer.data
y = cancer.target

2、PCA降维可视化数据

from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

# x_dr = PCA(2).fit_transform(x)
# plt.scatter(x_dr[:,0], x_dr[:,1], c=y)
# plt.show()

3、直接用svm分类

测试发现，准确率顺序：linear > rbf > poly > sigmoid

from sklearn.model_selection import train_test_split
from sklearn.svm import SVC

kernel = ['linear', 'poly', 'rbf', 'sigmoid']

x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=0)

for k in kernel:
    clf = SVC(kernel=k, random_state=0).fit(x_train, y_train)
    print(k, clf.score(x_test, y_test))
    # linear 0.958041958041958
    # poly 0.9230769230769231
    # rbf 0.9370629370629371
    # sigmoid 0.45454545454545453

4、标准化

虽然线性核函数的准确率已经达到95%以上，但我们分析原数据会发现，数据的范围比较大，所以可以尝试先标准化，看是否能进一步提高模型准确率。

from sklearn.preprocessing import StandardScaler

x_std = StandardScaler().fit_transform(x)

kernel = ['linear', 'poly', 'rbf', 'sigmoid']

x_train, x_test, y_train, y_test = train_test_split(x_std, y, random_state=0)

for k in kernel:
    clf = SVC(kernel=k, random_state=0).fit(x_train, y_train)
    print(k, clf.score(x_test, y_test))
    # linear 0.972027972027972
    # poly 0.916083916083916
    # rbf 0.965034965034965
    # sigmoid 0.951048951048951

5、调参

经过上一步的数据标准化，模型在不同核函数下，准确率都有一定提升，但核函数还有一些超参数可以调整，以下我们以rbf为例，尝试调整其gamma参数，观察其准确率是否能进一步提升。

import numpy as np

gammas = np.linspace(0.0001, 0.25, 50)
scores = []
for g in gammas:
    clf = SVC(kernel='rbf', gamma=g, random_state=0).fit(x_train, y_train)
    score = clf.score(x_test, y_test)
    scores.append(score)

print('max score:', max(scores), 'gamma：', gammas[np.argmax(scores)])
# max score: 0.972027972027972 gamma： 0.051100000000000007

plt.plot(gammas, scores)
plt.show()

实验发现，在不调整参数的情况下，线性核就可以有很好的分类效果，rbf在调整参数后，也可以达到与其一样的准确率。

本文为陈华原创，欢迎转载，但请注明出处：http://www.ichenhua.cn/read/286

Sklearn SVM以乳腺癌数据集为例调参

1、加载数据集

2、PCA降维可视化数据

3、直接用svm分类

4、标准化

5、调参

陈华编程

关于我们

合作平台

相关网站

联系我们