随机森林学习-sklearn

随机森林的Python实现 (RandomForestClassifier)

随机森林学习-sklearn

# -*- coding: utf- -*-

"""

RandomForestClassifier

skleran 的随机森林回归模型，应用流程。

.源数据随机的切分：%作为训练数据  %最为测试数据

.训练数据中的因变量（分类变量）处理成数字形式

.设定参数，训练/fit

.对测试数据，预测/predict结果y_pre

.对预测数据y列,y_pre列,生成混淆矩阵,显示分类/预测效果

"""

from sklearn.datasets import load_iris

from sklearn.ensemble import RandomForestClassifier

import pandas as pd

import numpy as np

iris = load_iris()

df = pd.DataFrame(iris.data, columns=iris.feature_names)  #合并 自变量 和 因变量

df['is_train'] = np.random.uniform(, , len(df)) <= .  #相当于随机抽取了75%作为训练数据

df['species'] = pd.Categorical.from_codes(iris.target, iris.target_names) #将数字类别转为文字类别

df.head()

train, test = df[df['is_train']==True], df[df['is_train']==False]   #拆分训练集和测试集

features = df.columns[:]  # 前4个指标 为自变量

clf = RandomForestClassifier(n_jobs=) # n_jobs=2是线程数

y, _ = pd.factorize(train['species'])  # 将文字类别 转为数字类别。一种序列化方法。第一参数是序列化后结果，第二个时参考

clf.fit(train[features], y)  #训练过程

preds = iris.target_names[clf.predict(test[features])]  # 获取测试数据预测结果

pd.crosstab(test['species'], preds, rownames=['actual'], colnames=['preds']) #生成混淆矩阵