Sklearn 内置数据集简介

时间:2024-11-24 10:08:35

sklearn内置了一些机器学习的数据集,其中包括iris(鸢尾花)数据集、乳腺癌数据集、波士顿房价数据集、糖尿病数据集、手写数字数据集、体能训练数据集和酒质量数据集。

datasets loaders
iris(鸢尾花) datasets.load_iris
波士顿房价 datasets.load_boston
乳腺癌数据集 datasets.load_breast_cancer
糖尿病数据集 datasets.load_diabetes
手写数字数据集 datasets.load_digits
体能训练数据集 datasets.load_linnerud
酒质量数据集 datasets.load_wine

iris(鸢尾花)数据集

Iris数据集是常用的分类实验数据集,包含150个样本示例,每个样本包含4个属性特征,可以通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。

数据集特点

样本实例个数:150个(3种类中各50个)
特征个数:4个数字特征和1个类别特征
特征信息

  • 花萼长度 (sepal length in cm)
  • 花萼宽度 (sepal width in cm)
  • 花瓣长度 (petal length in cm)
  • 花瓣宽度 (width in cm)
  • 类别:Setosa, Versicolour, Virginica

数据描述

    ============== ==== ==== ======= ===== ====================
                    Min  Max   Mean    SD   Class Correlation
    ============== ==== ==== ======= ===== ====================
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)
    ============== ==== ==== ======= ===== ====================

特征缺失值:None
类分布情况:3个类中的每个类占比33.3%
数据集创建者:R.A. Fisher
数据集的贡献者:Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
日期:July, 1988

波士顿房价

波士顿房价数据集是一个回归问题。数据集包含14个波士顿房屋相关特征的数据和区域房屋均价的数据。共有506个样本,13个特征和1个目标数值

数据集特点

样本实例个数:506
特征个数:13个特征属性和1个目标数值
特征信息:

Attribute Description
CRIM 城镇人均犯罪率,per capita crime rate by town
ZN 住宅用地所占比例(每25000平方英尺), proportion of residential land zoned for lots over 25,000 sq.ft.
INDUS 城镇非商业用地所占比例,proportion of non-retail business acres per town
CHAS 查尔斯河的指标虚拟化(区域在河附近用1表示,否则为0),Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
NOX 一氧化氮浓度,nitric oxides concentration (parts per 10 million)
RM 每栋住宅的房间数,average number of rooms per dwelling
AGE 1940年之前建成的自用住宅的比例,proportion of owner-occupied units built prior to 1940
DIS 距离5个波士顿就业中心的加权距离,weighted distances to five Boston employment centres
RAD 距离高速公路的便利指数,index of accessibility to radial highways
TAX 每10000美元的全值财产税率,full-value property-tax rate per $10,000
PTRATIO 城镇师生比例,pupil-teacher ratio by town
B 城镇中黑人比例,1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town
LSTAT 低收入人群的百分比,% lower status of the population
MEDV 房屋房价的中位数(以千美元为单位),Median value of owner-occupied homes in $1000’s

特征缺失值:None
数据集创建者:Harrison, D. and Rubinfeld, D.L.

乳腺癌

乳腺癌数据集是分类实验数据集,包含569个样本示例,30个特征属性和2个分类目标

数据集特点

样本实例个数:569
特征个数:30个数值特征
特征信息

Attribute Description
radius(半径) mean of distances from center to points on the perimeter
texture(质地) standard deviation of gray-scale values
perimeter(周长)
area(面积)
smoothness(光滑度) local variation in radius lengths
compactness(致密性) perimeter^2 / area - 1.0
concavity(凹度) severity of concave portions of the contour
concave points(凹点)
symmetry(对称性)
fractal dimension(分形维数) “coastline approximation” - 1

类别:

  • WDBC-Malignant(恶性)
  • WDBC-Benign(良性)

数据描述

    ===================================== ====== ======
                                           Min    Max
    ===================================== ====== ======
    radius (mean):                        6.981  28.11
    texture (mean):                       9.71   39.28
    perimeter (mean):                     43.79  188.5
    area (mean):                          143.5  2501.0
    smoothness (mean):                    0.053  0.163
    compactness (mean):                   0.019  0.345
    concavity (mean):                     0.0    0.427
    concave points (mean):                0.0    0.201
    symmetry (mean):                      0.106  0.304
    fractal dimension (mean):             0.05   0.097
    radius (standard error):              0.112  2.873
    texture (standard error):             0.36   4.885
    perimeter (standard error):           0.757  21.98
    area (standard error):                6.802  542.2
    smoothness (standard error):          0.002  0.031
    compactness (standard error):         0.002  0.135
    concavity (standard error):           0.0    0.396
    concave points (standard error):      0.0    0.053
    symmetry (standard error):            0.008  0.079
    fractal dimension (standard error):   0.001  0.03
    radius (worst):                       7.93   36.04
    texture (worst):                      12.02  49.54
    perimeter (worst):                    50.41  251.2
    area (worst):                         185.2  4254.0
    smoothness (worst):                   0.071  0.223
    compactness (worst):                  0.027  1.058
    concavity (worst):                    0.0    1.252
    concave points (worst):               0.0    0.291
    symmetry (worst):                     0.156  0.664
    fractal dimension (worst):            0.055  0.208
    ===================================== ====== ======

特征缺失值:None
目标分类分布: 212-恶性(Malignant),357-良性(Benign)
数据集创建者:Dr. William H. Wolberg, W. Nick Street, Olvi L. Mangasarian
日期:November, 1995

糖尿病

糖尿病数据集包含442个样本,每个样本包含年龄、性别、BMI指数、平均血压和6个疾病级指标。样本目标为基于病情进展一年后的定量测量数值。适用于回归任务

数据集特点

样本实例个数:442
特征数量:10个属性特征和1个目标数值
特征信息

Attribute Description
age(年龄)
sex(性别)
bmi 身体体质指数,body mass index
bp 平均血压,average blood pressure
s1 白细胞,tc, T-Cells (a type of white blood cells)
s2 低密度脂蛋白,ldl, low-density lipoproteins
s3 高密度脂蛋白,hdl, high-density lipoproteins
s4 促甲状腺激素,tch, thyroid stimulating hormone
s5 拉莫三嗪,ltg, lamotrigine
s6 血糖水平,glu, blood sugar level

注:每个特征数据均以进行规范化处理

手写数字

数据集包含1797个样本数据,每个样本对应64个数值特征,对应到一个8x8像素点组成的矩阵,每一个值是其灰度值。用于预测每个样本分别对应0-9中的哪一个数字。

数据集特点

样本实例个数:1797
特征数量:64
特征信息:0…16范围内整数像素的8x8图像。
特征缺失值:None

体能训练

数据集是一个多输出回归数据集(multi-output regression dataset),从一个健身俱乐部获得20个中年男子的数据,3个运动特征分别为引体向上、仰卧起坐、跳跃,以3个生理参数作为目标特征。适用于回归任务。

数据集特点

样本实例个数:20
特征数量:3
特征缺失值:None

数据文件

  • physiological(target) - 包含3个生理特征:Weight, Waist and Pulse
  • exercise(data) - 包含3个运动特征:Chins, Situps and Jumps

酒质量

数据集包含178个红酒样本数据,每个样本对应13个红酒的特征,可用于预测红酒的档次。用于分类任务。

数据集特点

样本实例个数:178
特征个数:13个数值特征和1个类别

特征信息:
    - Alcohol
    - Malic acid
    - Ash
    - Alcalinity of ash  
    - Magnesium
    - Total phenols
    - Flavanoids
    - Nonflavanoid phenols
    - Proanthocyanins
    - Color intensity
    - Hue
    - OD280/OD315 of diluted wines
    - Proline

    - class:
            - class_0
            - class_1
            - class_2
		
数据描述:
============================= ==== ===== ======= =====
                               Min   Max   Mean     SD
============================= ==== ===== ======= =====
Alcohol:                      11.0  14.8    13.0   0.8
Malic Acid:                   0.74  5.80    2.34  1.12
Ash:                          1.36  3.23    2.36  0.27
Alcalinity of Ash:            10.6  30.0    19.5   3.3
Magnesium:                    70.0 162.0    99.7  14.3
Total Phenols:                0.98  3.88    2.29  0.63
Flavanoids:                   0.34  5.08    2.03  1.00
Nonflavanoid Phenols:         0.13  0.66    0.36  0.12
Proanthocyanins:              0.41  3.58    1.59  0.57
Colour Intensity:              1.3  13.0     5.1   2.3
Hue:                          0.48  1.71    0.96  0.23
OD280/OD315 of diluted wines: 1.27  4.00    2.61  0.71
Proline:                       278  1680     746   315
============================= ==== ===== ======= =====

特征缺失值:None
类别分布:class_0 (59), class_1 (71), class_2 (48)