sklearn内置了一些机器学习的数据集,其中包括iris(鸢尾花)数据集、乳腺癌数据集、波士顿房价数据集、糖尿病数据集、手写数字数据集、体能训练数据集和酒质量数据集。
datasets | loaders |
---|---|
iris(鸢尾花) | datasets.load_iris |
波士顿房价 | datasets.load_boston |
乳腺癌数据集 | datasets.load_breast_cancer |
糖尿病数据集 | datasets.load_diabetes |
手写数字数据集 | datasets.load_digits |
体能训练数据集 | datasets.load_linnerud |
酒质量数据集 | datasets.load_wine |
iris(鸢尾花)数据集
Iris数据集是常用的分类实验数据集,包含150个样本示例,每个样本包含4个属性特征,可以通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。
数据集特点
样本实例个数:150个(3种类中各50个)
特征个数:4个数字特征和1个类别特征
特征信息
- 花萼长度 (sepal length in cm)
- 花萼宽度 (sepal width in cm)
- 花瓣长度 (petal length in cm)
- 花瓣宽度 (width in cm)
- 类别:Setosa, Versicolour, Virginica
数据描述
============== ==== ==== ======= ===== ====================
Min Max Mean SD Class Correlation
============== ==== ==== ======= ===== ====================
sepal length: 4.3 7.9 5.84 0.83 0.7826
sepal width: 2.0 4.4 3.05 0.43 -0.4194
petal length: 1.0 6.9 3.76 1.76 0.9490 (high!)
petal width: 0.1 2.5 1.20 0.76 0.9565 (high!)
============== ==== ==== ======= ===== ====================
特征缺失值:None
类分布情况:3个类中的每个类占比33.3%
数据集创建者:R.A. Fisher
数据集的贡献者:Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
日期:July, 1988
波士顿房价
波士顿房价数据集是一个回归问题。数据集包含14个波士顿房屋相关特征的数据和区域房屋均价的数据。共有506个样本,13个特征和1个目标数值
数据集特点
样本实例个数:506
特征个数:13个特征属性和1个目标数值
特征信息:
Attribute | Description |
---|---|
CRIM | 城镇人均犯罪率,per capita crime rate by town |
ZN | 住宅用地所占比例(每25000平方英尺), proportion of residential land zoned for lots over 25,000 sq.ft. |
INDUS | 城镇非商业用地所占比例,proportion of non-retail business acres per town |
CHAS | 查尔斯河的指标虚拟化(区域在河附近用1表示,否则为0),Charles River dummy variable (= 1 if tract bounds river; 0 otherwise) |
NOX | 一氧化氮浓度,nitric oxides concentration (parts per 10 million) |
RM | 每栋住宅的房间数,average number of rooms per dwelling |
AGE | 1940年之前建成的自用住宅的比例,proportion of owner-occupied units built prior to 1940 |
DIS | 距离5个波士顿就业中心的加权距离,weighted distances to five Boston employment centres |
RAD | 距离高速公路的便利指数,index of accessibility to radial highways |
TAX | 每10000美元的全值财产税率,full-value property-tax rate per $10,000 |
PTRATIO | 城镇师生比例,pupil-teacher ratio by town |
B | 城镇中黑人比例,1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town |
LSTAT | 低收入人群的百分比,% lower status of the population |
MEDV | 房屋房价的中位数(以千美元为单位),Median value of owner-occupied homes in $1000’s |
特征缺失值:None
数据集创建者:Harrison, D. and Rubinfeld, D.L.
乳腺癌
乳腺癌数据集是分类实验数据集,包含569个样本示例,30个特征属性和2个分类目标
数据集特点
样本实例个数:569
特征个数:30个数值特征
特征信息
Attribute | Description |
---|---|
radius(半径) | mean of distances from center to points on the perimeter |
texture(质地) | standard deviation of gray-scale values |
perimeter(周长) | |
area(面积) | |
smoothness(光滑度) | local variation in radius lengths |
compactness(致密性) | perimeter^2 / area - 1.0 |
concavity(凹度) | severity of concave portions of the contour |
concave points(凹点) | |
symmetry(对称性) | |
fractal dimension(分形维数) | “coastline approximation” - 1 |
类别:
- WDBC-Malignant(恶性)
- WDBC-Benign(良性)
数据描述
===================================== ====== ======
Min Max
===================================== ====== ======
radius (mean): 6.981 28.11
texture (mean): 9.71 39.28
perimeter (mean): 43.79 188.5
area (mean): 143.5 2501.0
smoothness (mean): 0.053 0.163
compactness (mean): 0.019 0.345
concavity (mean): 0.0 0.427
concave points (mean): 0.0 0.201
symmetry (mean): 0.106 0.304
fractal dimension (mean): 0.05 0.097
radius (standard error): 0.112 2.873
texture (standard error): 0.36 4.885
perimeter (standard error): 0.757 21.98
area (standard error): 6.802 542.2
smoothness (standard error): 0.002 0.031
compactness (standard error): 0.002 0.135
concavity (standard error): 0.0 0.396
concave points (standard error): 0.0 0.053
symmetry (standard error): 0.008 0.079
fractal dimension (standard error): 0.001 0.03
radius (worst): 7.93 36.04
texture (worst): 12.02 49.54
perimeter (worst): 50.41 251.2
area (worst): 185.2 4254.0
smoothness (worst): 0.071 0.223
compactness (worst): 0.027 1.058
concavity (worst): 0.0 1.252
concave points (worst): 0.0 0.291
symmetry (worst): 0.156 0.664
fractal dimension (worst): 0.055 0.208
===================================== ====== ======
特征缺失值:None
目标分类分布: 212-恶性(Malignant),357-良性(Benign)
数据集创建者:Dr. William H. Wolberg, W. Nick Street, Olvi L. Mangasarian
日期:November, 1995
糖尿病
糖尿病数据集包含442个样本,每个样本包含年龄、性别、BMI指数、平均血压和6个疾病级指标。样本目标为基于病情进展一年后的定量测量数值。适用于回归任务
数据集特点
样本实例个数:442
特征数量:10个属性特征和1个目标数值
特征信息
Attribute | Description |
---|---|
age(年龄) | |
sex(性别) | |
bmi | 身体体质指数,body mass index |
bp | 平均血压,average blood pressure |
s1 | 白细胞,tc, T-Cells (a type of white blood cells) |
s2 | 低密度脂蛋白,ldl, low-density lipoproteins |
s3 | 高密度脂蛋白,hdl, high-density lipoproteins |
s4 | 促甲状腺激素,tch, thyroid stimulating hormone |
s5 | 拉莫三嗪,ltg, lamotrigine |
s6 | 血糖水平,glu, blood sugar level |
注:每个特征数据均以进行规范化处理
手写数字
数据集包含1797个样本数据,每个样本对应64个数值特征,对应到一个8x8像素点组成的矩阵,每一个值是其灰度值。用于预测每个样本分别对应0-9中的哪一个数字。
数据集特点
样本实例个数:1797
特征数量:64
特征信息:0…16范围内整数像素的8x8图像。
特征缺失值:None
体能训练
数据集是一个多输出回归数据集(multi-output regression dataset),从一个健身俱乐部获得20个中年男子的数据,3个运动特征分别为引体向上、仰卧起坐、跳跃,以3个生理参数作为目标特征。适用于回归任务。
数据集特点
样本实例个数:20
特征数量:3
特征缺失值:None
数据文件
- physiological(target) - 包含3个生理特征:Weight, Waist and Pulse
- exercise(data) - 包含3个运动特征:Chins, Situps and Jumps
酒质量
数据集包含178个红酒样本数据,每个样本对应13个红酒的特征,可用于预测红酒的档次。用于分类任务。
数据集特点
样本实例个数:178
特征个数:13个数值特征和1个类别
特征信息:
- Alcohol
- Malic acid
- Ash
- Alcalinity of ash
- Magnesium
- Total phenols
- Flavanoids
- Nonflavanoid phenols
- Proanthocyanins
- Color intensity
- Hue
- OD280/OD315 of diluted wines
- Proline
- class:
- class_0
- class_1
- class_2
数据描述:
============================= ==== ===== ======= =====
Min Max Mean SD
============================= ==== ===== ======= =====
Alcohol: 11.0 14.8 13.0 0.8
Malic Acid: 0.74 5.80 2.34 1.12
Ash: 1.36 3.23 2.36 0.27
Alcalinity of Ash: 10.6 30.0 19.5 3.3
Magnesium: 70.0 162.0 99.7 14.3
Total Phenols: 0.98 3.88 2.29 0.63
Flavanoids: 0.34 5.08 2.03 1.00
Nonflavanoid Phenols: 0.13 0.66 0.36 0.12
Proanthocyanins: 0.41 3.58 1.59 0.57
Colour Intensity: 1.3 13.0 5.1 2.3
Hue: 0.48 1.71 0.96 0.23
OD280/OD315 of diluted wines: 1.27 4.00 2.61 0.71
Proline: 278 1680 746 315
============================= ==== ===== ======= =====
特征缺失值:None
类别分布:class_0 (59), class_1 (71), class_2 (48)