基本处理
缺失值处理
fillna
dropna
常用特征工程处理
数值型
幅度缩放
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
统计结果作为特征
mean() max() median()
四则运算
df_train.loc[:,'family_size'] = df_train['SibSp'] + df_train['Parch'] + 1
高次特征和交叉特征
from sklearn.preprocessing import PolynomialFeatures
离散化/分箱
pandas cut qcut
独热向量编码
embarked_oht = pd.get_dummies(df_train[['Embarked']])
时间型
df_time.loc[:,'dt'] = pd.to_datetime(df_time['date']) df_time.loc[:,'month'] = df_time['dt'].dt.month
特征选择
过滤型
from sklearn.feature_selection import SelectKBest
包裹型
from sklearn.feature_selection import RFE
嵌入型
from sklearn.feature_selection import SelectFromModel