人工智能

人工智能专栏,分享图像处理、 NLP算法、深度学习、神经网络等领域的知识。

  • Sklearn特征工程之Embedded嵌入法

    嵌入法是一种让算法自己决定使用哪些特征的方法,即特征选择和算法训练同时进行。相比于过滤法,嵌入法的结果会更加精确到模型的效用本身,对于提高特定模型的效力有更好的效果。由于考虑特征对模型的贡献,将低贡献的特征删除,本质上还是特征过滤。

    人工智能 1430 2022-04-28
  • Sklearn特征提取之F检验和互信息法

    上一篇文章中讲到相关性判断的的卡方过滤法,本文介绍另外两种:F检验、互信息法。使用方法和作用,都与卡方过滤类似,目的都是用来探索合适的有效特征K值。

    人工智能 2766 2022-04-27
  • Sklearn特征提取之卡方过滤

    上一篇文章介绍了特征的方差过滤,方差过滤完毕之后,我们要考虑下一个问题:相关性。Sklearn中有三种常用方法,来判断特征和标签之间的相关性:卡方、F检验、互信息。本文先介绍第一种卡方过滤。

    人工智能 1451 2022-04-26
  • Sklearn特征提取之方差过滤

    方差过滤,是机器学习特征选择的一种方法。所谓的特征选择,就是从所有特征中,选择出有意义,对模型有帮助的特征,避免将所有特征都导入模型去训练。本文以Kaggle上的手写数字识别训练集为例,来演示特征选择对模型训练时间和准确率的影响。

    人工智能 1363 2022-04-25
  • Sklearn连续型特征二值化和分箱

    在数据处理中,除了前面文章介绍过的非数值数据外,可能还有一些连续数值需要处理。比如年龄这个特性,如果按未成年和成年来划分,就是二值化,如果按少年、青年、中年、老年来划分,就是分箱。下面我们依然用泰坦尼克号的数据,来演示二值化和分箱。

    人工智能 883 2022-04-24
  • Sklearn特征独热编码OneHot

    上一篇文章中,我们使用OrdinalEncoder把分类特征Sex和Embarked转换成了数值,但在Embarked这个特征中,我们用[0,1,2]表示港口其实是不合理的。对于这类没有关联的名义变量,我们需要使用OneHot编码,将其转换成哑变量。

    人工智能 1356 2022-04-23
  • Sklearn分类特征和标签编码

    在机器学习中,大多数场景都只能处理数值型数据,但在现实场景中,很多特征和标签在采集完毕后,都不是以数字呈现的,这种情况下为了让数据适应算法和库,我们必须对数据进行编码,即文字型数据转化为数值型。

    人工智能 905 2022-04-22
  • Sklearn缺失值处理-填充和删除

    在机器学习和数据挖掘的实际场景中,数据一般都不会像Sklearn给我们提供的数据那么完美,难免会有一些缺失值,所以在做数据预处理时,对缺失值的处理,是必不可少的一个步骤。

    人工智能 1618 2022-04-21
  • Sklearn数据标准化StandardScaler

    前一篇文章讲到数据归一化,本文继续讲解无量纲化的第二种方法,数据标准化。其过程是先将数据按均值中心化后,再按标准差缩放,得到的数据服从均值为0,标准差为1的标准正态分布。

    人工智能 1439 2022-04-20
  • Sklearn数据归一化MinMaxScaler

    归一化(Normalization)和数据标准化(Standardization),是数据无量纲化的两大常用方法。归一化的方法是先按最小值中心化之后,再按极差(最大值-最小值)缩放,即数据先移动最小值个单元,在缩放使其收敛于[0,1]之间。归一化后的数据服从正态分布。

    人工智能 1293 2022-04-19
  • Sklearn使用随机森林模型实现红酒分类

    随机森林是最简单的集成学习算法,其核心是两个随机加多棵CART树,最后通过投票表决,决定数据属于哪一类别。本文依然以Sklearn数据为例,来对比随机森林和决策树的分类效果。

    人工智能 1413 2022-04-18
  • GraphViz在线绘制Sklearn红酒数据集决策树

    Sklearn红酒数据集,是一份非常适合用来做决策树模型数据集,本文介绍使用GraphViz在线工具,来绘制一个Sklearn红酒数据集决策树。

    人工智能 1746 2022-04-17
  • Sklearn决策树泰坦尼克号幸存者预测

    在这个Sklearn决策树泰坦尼克号幸存者预测挑战中,我们要求你完成对哪些人可能生存的分析。特别是,我们要求您运用机器学习的工具来预测哪些乘客幸免于难。

    人工智能 674 2022-04-16
  • Sklearn决策树剪枝和GridSearchCV

    在上一篇文章中,介绍了Sklearn使用决策树训练分类模型,但在模型构建过程中,出现了拟合的问题。本文主要介绍两种剪枝方式,并使用GridSearchCV网格搜索方式,找到最优参数。

    人工智能 1054 2022-04-15
  • Sklearn使用决策树训练分类模型

    决策树学习算法,通常是递归地根据某一准则(信息增益或基尼系数)选择最优切分点/特征,并根据该特征对训练数据集进行分割,使得对各个子数据集有一个最好的分类的过程。

    人工智能 728 2022-04-14
  • 梯度下降法的三种形式BGD、SGD以及MBGD对比

    前面文章中,详细介绍了用批量梯度下降法(BGD),求解线性回归问题的过程。本文再另外介绍两种:随机梯度下降和小批量梯度下降,并使用图形的方式,对三种方法做一个横向对比。

    人工智能 958 2022-04-12
  • 手写AI算法之梯度下降法求解线性回归

    前面文章中,我们用数学推导的方式,求解了线性回归问题,但直接求解计算量很大,特别是矩阵求逆的过程会很麻烦。在机器学习中,人们更倾向于用一种近似的方式,去拟合线性规律,那就是梯度下降法。

    人工智能 868 2022-04-11
  • Sklearn多元线性回归波士顿房价预测

    前面文章中,介绍了推导公式和手写代码的形式,来求解多元线性回归问题。但在真实项目中,一般都会使用调库的方式来完成任务。以下依然以波士顿房价预测需求为例,来介绍使用sklearn求解多元线性回归问题的方法。

    人工智能 1064 2022-04-10
  • 手写AI算法之KMeans聚类算法

    K-means 是最常用的基于欧式距离的机器学习聚类算法,其认为两个目标的距离越近,相似度越大。K-means是无监督学习的基础算法。

    人工智能 1258 2022-04-08
  • Pytorch深度学习LSTM模型实现MNIST数字识别

    深度学习中,RNN网络在理解上有一些难度,本文以最简单的LSTM模型,实现MNIST数字识别,来帮助大家理解RNN的模型参数。因为基础的RNN模型在案例中表现不佳,故使用改进版的LSTM模型。

    人工智能 608 2022-04-07