Sklearn 澳大利亚天气预测项目特征工程

澳大利亚天气预测，是Kaggle上一个非常接近真实场景的数据集，因为其数据结构复杂，前期需要做大量的数据预处理，所以本文先介绍澳大利亚天气数据集的特征工程部分，下节课再进行建模分析。

Kaggle下载地址：https://www.kaggle.com/datasets/jsphyg/weather-dataset-rattle-package

数据说明

# Date：观察特征的那一天
# Location：观察的城市
# MinTemp：当天最低温度（摄氏度）
# MaxTemp：当天最高温度（摄氏度）温度都是 string
# Rainfall：当天的降雨量（单位是毫米mm）
# Evaporation：一个凹地上面水的蒸发量（单位是毫米mm），24小时内到早上9点
# Sunshine：一天中出太阳的小时数
# WindGustDir：最强劲的那股风的风向，24小时内到午夜
# WindGustSpeed：最强劲的那股风的风速（km/h），24小时内到午夜
# WindDir9am：上午9点的风向
# WindDir3pm：下午3点的风向
# WindSpeed9am：上午9点之前的十分钟里的平均风速，即 8:50~9:00的平均风速，单位是（km/hr）
# WindSpeed3pm：下午3点之前的十分钟里的平均风速，即 14:50~15:00的平均风速，单位是（km/hr）
# Humidity9am：上午9点的湿度
# Humidity3pm：下午3点的湿度
# Pressure9am：上午9点的大气压强（hpa）
# Pressure3pm：下午3点的大气压强
# Cloud9am：上午9点天空中云的密度，取值是[0, 8]，以1位一个单位，0的话表示天空中几乎没云，8的话表示天空中几乎被云覆盖了
# Cloud3pm：下午3点天空中云的密度
# Temp9am：上午9点的温度（单位是摄氏度）
# Temp3pm：下午3点的温度（单位是摄氏度）
# RainTodayBoolean: 今天是否下雨
# RainTomorrow：明天是否下雨（标签值）

代码示例

1、导入数据集和初步探索

探索发现，特征数据有不同程度的缺失

import pandas as pd

weather = pd.read_csv('./datas/weatherAUS5000.csv', index_col=0)
# weather.info()
# print(weather.isnull().mean())

2、切分数据集

from sklearn.model_selection import train_test_split

x = weather.iloc[:, :-1]
y = weather.iloc[:, -1]

# print(y.unique())  #['Yes' 'No']

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=0)

# print(y_train.value_counts()) # No 2722 Yes 778
# print(y_test.value_counts()) # No 1133 Yes 367
# 打印发现，训练集和测试集都存在样本不均衡问题

3、标签编码

from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder().fit(y_train)
y_train = encoder.transform(y_train)
y_test = encoder.transform(y_test)

# print(y_train.shape)

4、处理日期特征

天气预测可能和日期中的月份有关系，所以提取日期中的月份

x_train['Month'] = x_train['Date'].str.split('-', expand=True)[1].astype('int')
x_train.drop('Date', axis=1, inplace=True)

x_test['Month'] = x_test['Date'].str.split('-', expand=True)[1].astype('int')
x_test.drop('Date', axis=1, inplace=True)

# print(len(x_train['Month'].unique()))

5、处理地点特征

观测点所在城市，对应所在气候区域划分，可能对天气预测有影响，所以将城市替换成气候区域。 # 本过程比较复杂，参见上一篇文章：澳大利亚观测点城市气候区域划分

city_climate = pd.read_csv('./datas/sample_city_climate.csv', index_col=0)
# 用气候区域替换观测点城市，并去掉空格
climate_dict = city_climate['Climate'].to_dict()
x_train['Climate'] = x_train['Location'].apply(lambda x: climate_dict[x].strip())
x_train.drop('Location', axis=1, inplace=True)
x_test['Climate'] = x_test['Location'].apply(lambda x: climate_dict[x].strip())
x_test.drop('Location', axis=1, inplace=True)

6、众数填补分类缺失值

cate_col = x_train.columns[x_train.dtypes == 'object'].tolist()
# Cloud9am、Cloud3pm、Month虽然是数字，但风力等级，应该当分类处理
cate_col += ['Cloud9am', 'Cloud3pm', 'Month']

from sklearn.impute import SimpleImputer

impmost = SimpleImputer(strategy='most_frequent')
impmost.fit(x_train.loc[:, cate_col])

x_train.loc[:, cate_col] = impmost.transform(x_train.loc[:, cate_col])
x_test.loc[:, cate_col] = impmost.transform(x_test.loc[:, cate_col])

# x_test.info()

7、分类特征编码

至此数据全部变为了数值型

from sklearn.preprocessing import OrdinalEncoder

encoder = OrdinalEncoder()
encoder.fit(x_train.loc[:, cate_col])

x_train.loc[:, cate_col] = encoder.transform(x_train.loc[:, cate_col])
x_test.loc[:, cate_col] = encoder.transform(x_test.loc[:, cate_col])

# x_train.info()

8、均值填补连续数据缺失值

cols = x_train.columns.tolist()
seri_col = list(set(cols) - set(cate_col))

impmean = SimpleImputer()
impmean.fit(x_train.loc[:, seri_col])

x_train.loc[:, seri_col] = impmean.transform(x_train.loc[:, seri_col])
x_test.loc[:, seri_col] = impmean.transform(x_test.loc[:, seri_col])

# print(x_test.isnull().mean())

9、连续数据标准化

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(x_train.loc[:, seri_col])

x_train.loc[:, seri_col] = scaler.transform(x_train.loc[:, seri_col])
x_test.loc[:, seri_col] = scaler.transform(x_test.loc[:, seri_col])

# print(x_test.describe().T)

本文为陈华原创，欢迎转载，但请注明出处：http://www.ichenhua.cn/read/290

Sklearn 澳大利亚天气预测项目特征工程

数据说明

代码示例

陈华编程

关于我们

合作平台

相关网站

联系我们