1. weka简单介绍
1) weka是新西兰怀卡托大学WEKA小组用JAVA开发的机器学习/数据挖掘开源软件。
2) 相关资源链接
http://sourceforge.net/projects/weka/files/
http://www.cs.waikato.ac.nz/ml/weka/
3) 主要特点
- 集数据预处理、学习算法(分类、回归、聚类、关联分析)和评估方法等为一体的综合性数据挖掘工具
- 具有交互式可视化界面
- 提供算法学习比較环境
- 通过其接口。可实现自己的数据挖掘算法
2. 数据集(.arff文件)
数据集的呈现形式如上图所看到的,其表现为一个二维表,当中:
- 表格里一行称作一个实例(Instance),相当于统计学中的一个样本,或者数据库中的一条记录
- 表格里一列称作一个属性(Attribute)。相当于统计学中的一个变量,或者数据库中的一个字段
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvemwxOTg5MDEyNA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">
数据集的存储格式如上图所看到的。是一种ASCII文本文件,整个ARFF文件能够分为两个部分:
- 第一部分给出了头信息(Headinformation)。包含了对关系的声明和对属性的声明
- 第二部分给出了数据信息(Datainformation)。即数据集中给出的数据。从”@data”标记開始。后面即为数据信息
注:当中凝视部分以”%”開始。凝视部分weka将忽略这些行;
假设关系名。属性名,数据的字符串包括空格,它必须加上引號;
最后一个声明的属性被称作class属性,在分类或回归任务中它是默认的目标变量。
3. 数据类型
1)Weka支持四种数据类型,分别为:
- numeric 数值型
数值型能够是整数(integer)或者实数(real),weka将它们都当作实数看待。
- nominal 标称型
标称属性由一系列的类别名称放在花括号里。
- string 字符串型
字符串属性能够包括随意的文本。
- date日期和时间型
日期和时间属性统一用”date”类型表示,默认的字符串是ISO-8601所给的日期时间组合格式:“yyyy-MM-dd HH:mm:ss”
eg. @ATTRIBUTE timestamp DATE“yyyy-MM-dd HH:mm:ss”
@DATA “2015-06-23 20:05:40”
2)稀疏数据
当数据集中含有大量的0值时。用稀疏格式的数据存储更加省空间。
稀疏格式是针对数据信息中某个对象的表示而言。不须要改动ARFF文件的其他部分。比如:
@data @data
0, X, 0, Y,“class A” {1 X, 3 Y, 4“class A”}
0, 0, W, 0,“class B” {2 W, 4 “classB”}
4. 数据准备
.xls -> .csv -> .arff
5. 分类 Classify
1) 分类过程
依据一个WEKA实例的一组特征属性(输入变量),对目标属性进行分类预測。为了实现这一目的,我们须要有一个训练数据集。这个数据集中每一个实例的输入和输出都是已知的。观察训练集中的实例,能够建立预測的分类/回归模型。有了这个模型,就能够对新的未知实例进行分类预測。衡量模型的好坏主要在于预測的准确程度。
2) 数据预測的样例
a. 注意測试数据集和训练数据集的各个属性声明部分的设置必须是一致的。即使在測试数据集中没有class属性的值,也须要加入这个属性,能够将该属性在各个实例上的值均设置为缺失值。
b. 打开“Simple CLI”模块。使用“J48”算法的命令格式为:
java weka.classifiers.trees.J48 -C0.25 -M 2 -t "C:\\Users\\Administrator\\Desktop\\课题\\数据文件\\測试数据\\2.3參考文献--相关性分析+数据变换.csv.arff"-d"C:\\Users\\Administrator\\Desktop\\课题\\数据文件\\測试数据\\2.3參考文献--相关性分析+数据变换.model"
这里的” 2.3參考文献--相关性分析+数据变换.csv.arff”是训练数据集。当中參数“-C 0.25”表示置信因子,“-M 2”表示最小实例数。
“-t”后面为训练数据集的完整路径,“-d”后面为保存模型的完整路径。
c. 把这个模型应用到測试数据集的命令格式为:
java weka.classifiers.trees.J48 -p 11 -l"C:\\Users\\Administrator\\Desktop\\课题\\数据文件\\測试数据\\2.3參考文献--相关性分析+数据变换.model"-T "C:\\Users\\Administrator\\Desktop\\课题\\数据文件\\測试数据\\3.3学位论文中提取的參考文献.csv.arff"
当中“-p 11”指模型中的待预測属性的真实值存在第11个属性中,“-l”后面为模型的完整路径。“-T”后面为測试数据集的完整路径。
d. 输入上述命令后。出现的结果:
===Predictions on test data ===
inst# actual predicted error prediction ()
1 1:? 1:J 1
2 1:? 1:J 1
3 1:?
2:M 0.667
4 1:?
2:M 0.667
5 1:? 3:C 1
6 1:? 2:M 0.667
第一列为实例编号。第二列为測试数据集中原来class属性的值,第三列是预測后的结果,第四列为预測结果的置信度,比如对于实例1,有百分之百的把握说它的值为J.