机器学习数据集

文章目录

1.瑞典汽车保险数据集
3.比马印第安人糖尿病数据集
4.怀孕次数
5.声纳数据集
6.钞票数据集
7.鸢尾花卉数据集
9. 电离层数据集
10.小麦种子数据集
11.波士顿房价数据集

12.1单变量时间序列数据集

洗发水销售数据集（Shampoo Sales Dataset）
日较低温度数据集（Minimum Daily Temperatures Dataset）
每月太阳黑子数数据集（Monthly Sunspot Dataset）
每日女婴出生人数数据集

12.2 多变量时间序列数据集

EEG 人眼状态数据集
使用检测数据集（Occupancy Detection Dataset）
臭氧水平检测数据集

学好机器学习的关键是用许多不同的数据集来练习。因为对不同的问题，需要有不同的数据准备和建模方法。本文介绍了10个更受欢迎的标准机器学习数据集，可以用作练习的资源。

1.瑞典汽车保险数据集

瑞典汽车保险数据集（ Swedish Auto Insurance Dataset）包含了对所有索赔要求的总赔付预测，以千瑞典克朗计，给定的条件是索赔要求总数。这是一个回归问题。它由 63 个观察值组成，包括1个输入变量和1个输出变量。

变量名：索赔要求数量。

对所有索赔的总赔付，以千瑞典克朗计。预测平均值的基准性能的均方根误差（RMSE）约为 72.251 千克朗。

前5行的示例如下：

下面是整个数据集的散点图：

下载地址：http://t.cn/RfHWAbI

###2.葡萄酒质量数据集

葡萄酒质量数据集（Wine Quality Dataset ）涉及根据每种葡萄酒的化学度量值来预测白葡萄酒的质量。

它是一个多类分类问题，但也可以定义为回归问题。每个类的观察值数量不均等。一共有 4898个观察值，11个输入变量和一个输出变量。

变量名：非挥发性酸度、挥发性酸度、柠檬酸、残留糖、氯化物、游离二氧化硫、总二氧化硫、浓度、pH值、硫酸盐、酒精度、质量（得分在 0 和 10 之间）。

预测平均值的基准性能的均方根误差（RMSE）为 0.148 的质量分数。

数据集前5行的示例如下：

3.比马印第安人糖尿病数据集

比马印第安人糖尿病数据集（Pima Indians Diabetes Dataset）涉及根据医疗记录预测比马印第安人5年内糖尿病的发病情况。它是一个二元分类问题。每个类的观察值数量不均等。一共有 768 个观察值，8个输入变量和1个输出变量。缺失值通常用零值编码。

4.怀孕次数

口服葡萄糖耐受试验中，2小时的血浆葡萄糖浓度。

变量名：舒张压（mm Hg）、三头肌皮肤褶层厚度（mm）、2小时血清胰岛素含量（μU/ ml）

体重指数（体重，kg /（身高，m）^ 2）、糖尿病家族史、年龄（岁）、类变量（0 或 1）。

预测最普遍类的基准性能是约 65％的分类准确率，较佳结果达到约 77% 的分类准确率。

数据集前5行的示例如下：

下载地址：http://t.cn/RfaFfq8

5.声纳数据集

声纳数据集（Sonar Dataset ）涉及预测根据给定声纳从不同角度返回的强度预测目标物体是岩石还是矿井。它是一个二元分类问题。每个类的观察值数量不均等。一共有208个观察值，60个输入变量和1个输出变量。

变量名：从不同角度返回的声纳… …类（M为矿井，R为岩石）

预测最普遍类的基准性能是约 53％的分类准确率，较佳结果达到约 88% 的分类准确率。

该数据集前5行的示例如下：

下载地址：http://t.cn/Rf8GrP7

6.钞票数据集

钞票数据集（Banknote Dataset）涉及根据给定钞票的数个度量的照片预测是真钞还是假钞。

它是一个二元分类问题。每个类的观测值数量不均等。一共有 1372 个观察值，4个输入变量和1个输出变量。变量名：小波变换图像（连续）、小波偏斜变换图像（连续）、小波峰度变换图像（连续）、图像熵（连续）。

类（0 为真钞，1 为假钞）

预测最普遍类的基准性能是约 50％的分类准确率。

该数据集前5行的示例如下：

下载地址：http://t.cn/Rf8GdQo

7.鸢尾花卉数据集

鸢尾花卉数据集（Iris Flowers Dataset ）涉及根据鸢尾花的测量数据预测花卉品种。它是一个多类分类问题。每个类的观察值数量是均等的。一共有 150 个观察值，4个输入变量和1个输出变量。

变量名：萼片长度（cm）、萼片宽度（cm）、花瓣长度（cm）、花瓣宽度（cm）、类（Iris Setosa，Iris Versicolour，Iris Virginica）

预测最普遍类的基准性能是约 26％的分类准确率。

该数据集前5行的示例如下：

下载地址：http://t.cn/Rf8GeUq

###8. 鲍鱼数据集

鲍鱼数据集（Abalone Dataset）涉及根据鲍鱼个体的测量数据来预测鲍鱼的年龄（环的数量）。

它是一个多类分类（multi-class classification）问题，但也可以作为回归问题。每个类的观察值数量不均等。该数据集有 4177 个观察值，8个输入变量和1个输出变量。

变量名：性别（M，F，I）、长度、直径、高度、总重量、剥壳重量、内脏重量、壳重、环的数量

预测最普遍类的基准性能是约 16％的分类准确率，预测平均值的基准性能的均方根误差（RMSE）是约 3.2 个环。

该数据集前5行的示例如下：

下载地址：http://t.cn/Rf8GDdu

9. 电离层数据集

电离层数据集（Ionosphere Dataset）需要根据给定的电离层中的*电子的雷达回波预测大气结构。

它是一个二元分类问题。每个类的观察值数量不均等，一共有 351 个观察值，34 个输入变量和1个输出变量。变量名： 17对雷达回波数据， … …

类（g 表示好，b 表示坏）。

预测最普遍类的基准性能是约 64％的分类准确率，较佳结果达到约 94% 的分类准确率。

该数据集前5行的示例如下：

下载地址：http://t.cn/Rf8GFY4

10.小麦种子数据集

小麦种子数据集（Wheat Seeds Dataset）涉及对不同品种的小麦种子进行预测，给定的是种子的计量数据。它是一个二元分类问题。每个类的观察值是均等的，一共 210 个观察值，7个输入变量和1个输出变量。变量名：区域、周长、压实度、籽粒长度、籽粒宽度、不对称系数、籽粒腹沟长度

类（1，2，3）

预测最普遍类的基准性能是约 28％的分类准确率。

数据集前5行的示例如下：

下载地址：http://t.cn/RfHHbzw

11.波士顿房价数据集

波士顿房价数据集（Boston House Price Dataset）包含对房价的预测，以千美元计，给定的条件是房屋及其相邻房屋的详细信息。该数据集是一个回归问题。每个类的观察值数量是均等的，共有 506 个观察，13 个输入变量和1个输出变量。

变量名：CRIM：城镇人均犯罪率、ZN：住宅用地超过 25000 sq.ft. 的比例、INDUS：城镇非零售商用土地的比例、CHAS：查理斯河空变量（如果边界是河流，则为1；否则为0）、NOX：一氧化氮浓度、RM：住宅平均房间数、AGE：1940 年之前建成的自用房屋比例、DIS：到波士顿五个中心区域的加权距离、RAD：辐射性公路的接近指数、TAX：每 10000 美元的全值财产税率、PTRATIO：城镇师生比例、B：1000（Bk-0.63）^ 2，其中 Bk 指代城镇中黑人的比例、LSTAT：人口中地位低下者的比例、MEDV：自住房的平均房价，以千美元计。

预测平均值的基准性能的均方根误差（RMSE）是约 9.21 千美元。

数据集前5行的示例如下：