Sklearn特征提取之卡方过滤

上一篇文章介绍了特征的方差过滤，方差过滤完毕之后，我们要考虑下一个问题：相关性。我们希望选出的特征与标签相关且有意义，因为这样的特征能够为我们提供更有用的信息。Sklearn中有三种常用方法，来判断特征和标签之间的相关性：卡方、F检验、互信息。本文先介绍第一种卡方过滤。

卡方过滤是专门针对离散型标签（即分类问题）的相关性过滤，卡方检验类feature_selection.chi2，可以计算每个非负特征和标签之间的卡方统计量，并依照卡方统计量由高到低位特征排名，再结合feature_selection.SelectKBest，结合评分标准来选取前K个分数最高的特征。

1、卡方过滤

import pandas as pd
from sklearn.feature_selection import chi2
from sklearn.feature_selection import SelectKBest
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier as RFC

data = pd.read_csv('./datas/digit_recognizor_simple.csv')
x = data.iloc[:, 1:]
y = data.iloc[:, 0]

x_chi = SelectKBest(chi2, k=300).fit_transform(x, y)

score = cross_val_score(RFC(random_state=42), x_chi, y, cv=5).mean()
print(score)  # 0.855

2、学习曲线选K值

import matplotlib.pyplot as plt
score_l = []
for i in range(200, 401, 10):
    x_chi = SelectKBest(chi2, k=i).fit_transform(x, y)

    score = cross_val_score(RFC(random_state=42), x_chi, y, cv=5).mean()
    score_l.append(score)

plt.plot(range(200, 401, 10), score_l)
plt.show()

3、P值调参

卡方检测会返回卡方值和P值两个统计量，其中卡方值很难界定有效范围，但P值一般使用0.01或0.05作为显著性水平，即p值的判断边界。p<=0.05或0.01，说明两组数据是相关的，反之相互独立。

chi, p = chi2(x, y)
# k的取值，可以用总特征数，减去p大于设置值的总数
k = chi.shape[0] - (p>0.01).sum()
print(k)  # 784

很遗憾，k值最后结果和特征数相等，说明卡方过滤对该组数据不适用，可以考虑只用前面学过的特征方差过滤。

本文为陈华原创，欢迎转载，但请注明出处：http://www.ichenhua.cn/read/268

Sklearn特征提取之卡方过滤

陈华编程

关于我们

合作平台

相关网站

联系我们