『Sklearn』自带数据集API

自带数据集类型如下：

# 自带小型数据集
# sklearn.datasets.load_<name>
# 在线下载数据集
# sklearn.datasets.fetch_<name>
# 计算机生成数据集
# sklearn.datasets.make_<name>
# svmlight/libsvm格式数据集
# sklearn.datasets.load_svmlight_file(path)
# mldata.org在线下载网站数据集
# sklearn.datasets.fetch_mldata(path)

以鸢尾花数据为例，介绍一下自带数据集的使用。

基本使用：

import sklearn import matplotlib.pyplot as plt # 载入数据集 iris = sklearn.datasets.load_iris() # 鸢尾花数据 # 打印数据集中的类型 print(iris.keys()) # dict_keys([‘target‘, ‘data‘, ‘feature_names‘, ‘DESCR‘, ‘target_names‘]) # target：标签 # data ：数据 # feature_names ：特征名称，list，按照data中排序生成 # target_names : 标签名称，，list，按照target中排序生成 print(iris.target.shape) print(iris.data.shape) print(iris.feature_names) print(iris.target_names) # (150,) # (150, 4) # [‘sepal length (cm)‘, ‘sepal width (cm)‘, ‘petal length (cm)‘, ‘petal width (cm)‘] # [‘setosa‘ ‘versicolor‘ ‘virginica‘]

使用一个特征绘制柱状图：

x_index = 3 colors = [‘blue‘, ‘red‘, ‘green‘] for label, color in zip(range(len(iris.target_names)), colors): plt.hist(iris.data[iris.target==label, x_index], label = iris.target_names[label], color=color) plt.xlabel(iris.feature_names[x_index]) plt.legend(loc=‘upper right‘) plt.show()

『Sklearn』自带数据集API

使用两个特征绘制散点图：

x_index = 0 y_index = 1 colors = [‘blue‘, ‘red‘, ‘green‘] for label, color in zip(range(len(iris.target_names)), colors): plt.scatter(iris.data[iris.target == label, x_index], iris.data[iris.target == label, y_index], label=iris.target_names[label], # 图例内容 color=color) plt.xlabel(iris.feature_names[x_index]) plt.ylabel(iris.feature_names[y_index]) plt.legend(loc=‘upper right‘) # 显示图例 plt.show()

『Sklearn』自带数据集API

其他自带小型数据集（load的）均同理，以后遇到教程使用时不用再慌了。

『Sklearn』自带数据集API

秒客网

『Sklearn』自带数据集API

相关文章