数据集处理步骤
- 查看该数据集对应的描述(摘要,详细描述,变量信息)
- 下载并用
Excel
等工具查看数据集(变量名,数量),根据目的看是否需要变量清洗 - 查看数据集对应的论文
SCADI.csv
摘要:
基于 ICF-CY
的第一个自我护理活动数据集
ICF-CY - 国际功能,残疾和健康分类(青少年版)
数据集描述:
该数据集来自 70 例身体残疾和运动残疾儿童病例,包含 206 条属性(依据 ICF-CY)
特别的,到今天为止 SCADI 数据集是唯一的一个 ML 研究人员使用的 《基于 ICF CY 自我护理问题分类》。
“类”领域是指存在身体和运动残疾儿童的自我保健问题,这些课程由职业治疗师决定。
最近从数据集中删除了儿童的姓名和社会安全号码。
两个文件已经被处理, SCADI.arff
和 SCADI.CSV
分别用于 WEKA 和 MATLAB,或者类似的工具。
属性信息:
1
:性别:性别(1=男性,0=女性)
2
:年龄:年龄
3-205
:基于 ICF-CY 的自我护理活动(1=病例具有此特征;0 = 其他)
206
:
分类(
分类1 = 关心身体部位问题;
分类2 = 如厕问题;
分类3 = 穿衣问题;
分类4 = 独立洗澡、自我护理和穿衣问题;
分类5 = 独立洗澡,自我护理,如厕和穿衣问题;
分类6 = 吃,喝,独立洗澡,自我护理,洗脸,梳妆,照顾他人,保护他人;
分类7 = 没有问题)
注意:
如数据集下载完毕后为 SCADI-Dataset.txt
, 重命名修改为 SCADI-Dataset.rar
即可正常打开。
SGEMM GPU kernel performance
摘要
运行时间为 两个 2048 x 2048
的矩阵相乘,使用 GPU OpenCL SGEMM
内核不同参数,使用库为 CLTune
CLTune ( A Generic Auto-Tuner for OpenCL Kernels ):一种通用的OpenCL内核自动调谐器
数据集描述:
该数据集测量矩阵矩阵乘积 A*B=C
的运行时间,
其中所有矩阵具有 2048×2048
的大小,使用具有 241600
个可能参数组合的可参数化的 SGEMM GPU 内核。
对于每个测试组合,执行 4
次运行,并将其结果报告为 4
个最后列。
所有时间都以 ms
为单位测量。
有 14
个参数,前 10
个是序数的,只能取 4
个不同的两个值的幂,而 4
个最后的变量是二进制的。在 1327104
个总参数组合中,只有 241600
个是可行的(由于各种内核约束)。该数据集包含所有这些可行组合的结果。
该实验运行在一台运行 Ubuntu 16.04 Linux
的桌面工作站上,英特尔内核 I5(3.5GHz)
、16GB RAM
和 Nvidia GeFig GTX 680 4GB GF580GTX-1.5 GB GPU
。我们使用来自自动 OpenCL
内核优化库 'CalTun'
的“GEMMYFAST
”内核。
属性信息:
独立变量:
1-2. MWG,NWG
:每个矩阵 2D
在工作组级别的瓦片:{ 16, 32, 64,128 }(整数)
3 . KWG
:工作组级别 2D
瓦片的内部维度:{ 16, 32 }(整数)
4-5. MDIMC,NDIMC
:本地工作组大小:{ 8, 16, 32 }(整数)
6-7. MDEMA,NDIMB
:局部内存形状:{ 8, 16, 32 }(整数)
8 . KWI
:内核循环展开因子:{ 2, 8 }(整数)
9-10. VWM,VWN
:每个矩阵向量宽度的加载和存储:{ 1, 2, 4,8 }(整数)
11-12. STRM,STRN
:允许访问片外存储器:单线程:{ 0, 1 }(分类)
13-14.SA,SB
:每 2D
工作组瓦片的矩阵手动缓存:{ 0, 1 }(分类)
输出:
15-18. Run1,Run2,Run3,Run4
:使用相同参数的4个独立运行的毫秒执行时间:它们介于 13.25
和 3397.08
之间。
Student Performance
摘要
预测学生在中等教育(高中)的表现。
数据集描述:
这一数据接近两个葡萄牙语学校中学教育的学生成绩。
数据属性包括 学生成绩,人口统计学,社会和学校相关的特点,它是通过使用学校报告和问卷收集。
提供两个数据集的性能在两个不同的科目:数学(MAT)和葡萄牙语(POR)。在[科尔特斯和席尔瓦,2008 ]中,在 二进制/五级 分类和回归任务下对两个数据集进行建模。
重要注意事项:目标属性 G3
与属性 G2
和 G1
具有很强的相关性。这是因为 G3
是最后一年级(在第三期发布),而 G1
和 G2
对应于 第一和第二周期 等级。没有 G2
和 G1
预测 G3
更困难,但是这样的预测更有用。
属性信息:
学生 MAT.CSV
(数学课程)和学生 PAR.CSV
(葡萄牙语课程)数据集的属性:
1
学生的学校(二进制:“GP
”- Gabriel Pereira
或 “MS
”- Mousinho da Silveira
)
2
学生的性别(二进制:“F
”-女性 或 “M
”-男性)
3
学生年龄(数字:15
至 22
)
4
学生的家庭地址类型(二进制:“U
”-城市 或 “R
”-农村)
5
家庭大小(二进制:’LE3
‘-小于或等于 3
或 ‘GT3
’- 大于3)
6
父母状态-父母是否同居(二进制:‘T
’-同居 或 ‘A
’-分开’)
7
母亲教育(数字:0
-无,1
-小学教育(四年级),2
-第五至第九年级,3
-中等教育或 4
-“高等教育”)
8
父亲教育(数字:0
-无,1
-小学教育(四年级),2
-第五至第九年级,3
-中等教育或 4
-“高等教育”)
9
妈妈的工作(名义上:“老师”,“健康护理”,“民事服务”(如行政或警察),“全职妈妈”或“其他”)
10
父亲的工作(名义上:“老师”,“健康护理”,“民事服务”(如行政或警察),“全职妈妈”或“其他”)
11
选择这所学校的理由(名义上:“离家近”,“学校声誉好”,“课程偏爱”或“其他”)
12
学生监护人(标称:‘母亲’、‘父亲’或‘他人’)
13
从家到学校的时间(数字:1 -
15 分钟,2 -
15 至 30 分钟,3 -
30 分钟至 1 小时,或 4 -
1小时)
14
每周学习时间(数字:1 -
2小时,2 -
2至5小时,3 -
5至10小时,或4 -
10小时)
15
过去班级失败的数目(数值:n,1<n<=3
,否则为4)
16
额外教育支持(二进制:是或否)
17
家庭教育支持(二进制:是或否)
18
课程科目(数学或葡萄牙语)的额外付费课程(二进制:是或否)
19
课外活动(二进制:是或否)
20
托儿所(二进制:是或否)
21
想接受高等教育(二进制:是或否)
22
家庭互联网接入(二进制:是或否)
23
早恋(二进制:是或否)
24
家庭关系的质量(数字:从 1 到 非常低 到 5 非常高)
25
课余*时间(数字:从 1 到 非常低 到 5 非常高)
26
与朋友外出(数字:从 1 到 非常低 到 5 非常高)
27
工作日饮酒量(数字:从 1 到 非常低 到 5 非常高)
28
周末饮酒量(数字:从 1 到 非常低 到 5 非常高)
29
当前健康状况(数字:从 1 到 非常低 到 5 非常高)
30
学校缺席人数(数字:0 至 93)
这些成绩与课程科目、数学或葡萄牙语有关:
31
G1 -第一期成绩(数字:0 至 20)
31
G2 -第二期成绩(数字:0 至 20)
32
G3-最终成绩(数字:0 到 20,输出目标)