机器学习-数据处理

时间:2022-12-20 21:59:03

基本处理

缺失值处理

fillna
dropna

常用特征工程处理

数值型

幅度缩放
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
统计结果作为特征
mean() max() median()
四则运算
df_train.loc[:,'family_size'] = df_train['SibSp'] + df_train['Parch'] + 1
高次特征和交叉特征
from sklearn.preprocessing import PolynomialFeatures
离散化/分箱
pandas cut qcut
独热向量编码
embarked_oht = pd.get_dummies(df_train[['Embarked']])

时间型

df_time.loc[:,'dt'] = pd.to_datetime(df_time['date']) df_time.loc[:,'month'] = df_time['dt'].dt.month

特征选择

过滤型

from sklearn.feature_selection import SelectKBest

包裹型

from sklearn.feature_selection import RFE

嵌入型

from sklearn.feature_selection import SelectFromModel