人工智能(AI) - 图像处理、 NLP算法、深度学习、神经网络

Sklearn特征工程之Embedded嵌入法

嵌入法是一种让算法自己决定使用哪些特征的方法，即特征选择和算法训练同时进行。相比于过滤法，嵌入法的结果会更加精确到模型的效用本身，对于提高特定模型的效力有更好的效果。由于考虑特征对模型的贡献，将低贡献的特征删除，本质上还是特征过滤。

人工智能 1430 2022-04-28

Sklearn特征提取之F检验和互信息法

上一篇文章中讲到相关性判断的的卡方过滤法，本文介绍另外两种：F检验、互信息法。使用方法和作用，都与卡方过滤类似，目的都是用来探索合适的有效特征K值。

人工智能 2766 2022-04-27

Sklearn特征提取之卡方过滤

上一篇文章介绍了特征的方差过滤，方差过滤完毕之后，我们要考虑下一个问题：相关性。Sklearn中有三种常用方法，来判断特征和标签之间的相关性：卡方、F检验、互信息。本文先介绍第一种卡方过滤。

人工智能 1451 2022-04-26

Sklearn特征提取之方差过滤

方差过滤，是机器学习特征选择的一种方法。所谓的特征选择，就是从所有特征中，选择出有意义，对模型有帮助的特征，避免将所有特征都导入模型去训练。本文以Kaggle上的手写数字识别训练集为例，来演示特征选择对模型训练时间和准确率的影响。

人工智能 1363 2022-04-25

Sklearn连续型特征二值化和分箱

在数据处理中，除了前面文章介绍过的非数值数据外，可能还有一些连续数值需要处理。比如年龄这个特性，如果按未成年和成年来划分，就是二值化，如果按少年、青年、中年、老年来划分，就是分箱。下面我们依然用泰坦尼克号的数据，来演示二值化和分箱。

人工智能 883 2022-04-24

Sklearn特征独热编码OneHot

上一篇文章中，我们使用OrdinalEncoder把分类特征Sex和Embarked转换成了数值，但在Embarked这个特征中，我们用[0,1,2]表示港口其实是不合理的。对于这类没有关联的名义变量，我们需要使用OneHot编码，将其转换成哑变量。

人工智能 1356 2022-04-23

Sklearn分类特征和标签编码

在机器学习中，大多数场景都只能处理数值型数据，但在现实场景中，很多特征和标签在采集完毕后，都不是以数字呈现的，这种情况下为了让数据适应算法和库，我们必须对数据进行编码，即文字型数据转化为数值型。

人工智能 905 2022-04-22

Sklearn缺失值处理-填充和删除

在机器学习和数据挖掘的实际场景中，数据一般都不会像Sklearn给我们提供的数据那么完美，难免会有一些缺失值，所以在做数据预处理时，对缺失值的处理，是必不可少的一个步骤。

人工智能 1618 2022-04-21

Sklearn数据标准化StandardScaler

前一篇文章讲到数据归一化，本文继续讲解无量纲化的第二种方法，数据标准化。其过程是先将数据按均值中心化后，再按标准差缩放，得到的数据服从均值为0，标准差为1的标准正态分布。

人工智能 1439 2022-04-20

Sklearn数据归一化MinMaxScaler

归一化（Normalization）和数据标准化（Standardization），是数据无量纲化的两大常用方法。归一化的方法是先按最小值中心化之后，再按极差（最大值-最小值）缩放，即数据先移动最小值个单元，在缩放使其收敛于[0,1]之间。归一化后的数据服从正态分布。

人工智能 1293 2022-04-19

Sklearn使用随机森林模型实现红酒分类

随机森林是最简单的集成学习算法，其核心是两个随机加多棵CART树，最后通过投票表决，决定数据属于哪一类别。本文依然以Sklearn数据为例，来对比随机森林和决策树的分类效果。

人工智能 1413 2022-04-18

GraphViz在线绘制Sklearn红酒数据集决策树

Sklearn红酒数据集，是一份非常适合用来做决策树模型数据集，本文介绍使用GraphViz在线工具，来绘制一个Sklearn红酒数据集决策树。

人工智能 1746 2022-04-17

Sklearn决策树泰坦尼克号幸存者预测

在这个Sklearn决策树泰坦尼克号幸存者预测挑战中，我们要求你完成对哪些人可能生存的分析。特别是，我们要求您运用机器学习的工具来预测哪些乘客幸免于难。

人工智能 674 2022-04-16

Sklearn决策树剪枝和GridSearchCV

在上一篇文章中，介绍了Sklearn使用决策树训练分类模型，但在模型构建过程中，出现了拟合的问题。本文主要介绍两种剪枝方式，并使用GridSearchCV网格搜索方式，找到最优参数。

人工智能 1054 2022-04-15

Sklearn使用决策树训练分类模型

决策树学习算法，通常是递归地根据某一准则（信息增益或基尼系数）选择最优切分点/特征，并根据该特征对训练数据集进行分割，使得对各个子数据集有一个最好的分类的过程。

人工智能 728 2022-04-14

梯度下降法的三种形式BGD、SGD以及MBGD对比

前面文章中，详细介绍了用批量梯度下降法（BGD），求解线性回归问题的过程。本文再另外介绍两种：随机梯度下降和小批量梯度下降，并使用图形的方式，对三种方法做一个横向对比。

人工智能 958 2022-04-12

手写AI算法之梯度下降法求解线性回归

前面文章中，我们用数学推导的方式，求解了线性回归问题，但直接求解计算量很大，特别是矩阵求逆的过程会很麻烦。在机器学习中，人们更倾向于用一种近似的方式，去拟合线性规律，那就是梯度下降法。

人工智能 868 2022-04-11

Sklearn多元线性回归波士顿房价预测

前面文章中，介绍了推导公式和手写代码的形式，来求解多元线性回归问题。但在真实项目中，一般都会使用调库的方式来完成任务。以下依然以波士顿房价预测需求为例，来介绍使用sklearn求解多元线性回归问题的方法。

人工智能 1064 2022-04-10

手写AI算法之KMeans聚类算法

K-means 是最常用的基于欧式距离的机器学习聚类算法，其认为两个目标的距离越近，相似度越大。K-means是无监督学习的基础算法。

人工智能 1258 2022-04-08

Pytorch深度学习LSTM模型实现MNIST数字识别

深度学习中，RNN网络在理解上有一些难度，本文以最简单的LSTM模型，实现MNIST数字识别，来帮助大家理解RNN的模型参数。因为基础的RNN模型在案例中表现不佳，故使用改进版的LSTM模型。

人工智能 608 2022-04-07

人工智能

关于我们

合作平台

相关网站

联系我们