一、什么是arff格式文件
1、arff是Attribute-Relation File Format缩写,从英文字面也能大概看出什么意思。它是weka数据挖掘开源程序使用的一种文件模式。由于weka是个很出色的数据挖掘开源项目,所以使用的比较广,这也无形中推广了它的数据存储格式。
2、下面是weka自带的一个arff文件例子(weather.arff)
1 @relation weather
2
3 @attribute outlook {sunny, overcast, rainy}
4 @attribute temperature real
5 @attribute humidity real
6 @attribute windy {TRUE, FALSE}
7 @attribute play {yes, no}
8
9 @data
10 sunny,85,85,FALSE,no
11 sunny,80,90,TRUE,no
12 overcast,83,86,FALSE,yes
13 rainy,70,96,FALSE,yes
14 rainy,68,80,FALSE,yes
15 rainy,65,70,TRUE,no
16 overcast,64,65,TRUE,yes
17 sunny,72,95,FALSE,no
18 sunny,69,70,FALSE,yes
19 rainy,75,80,FALSE,yes
20 sunny,75,70,TRUE,yes
21 overcast,72,90,TRUE,yes
22 overcast,81,75,FALSE,yes
23 rainy,71,91,TRUE,no
a) 第1行,是关系名称,这个自己随便起,不过写的最好要有意义。
b) 第3~7行是特征列表,其中第1列是特征说明,不可缺少,第2列是特征名称,第3列是特征类型或特征取值范围。
c) @data(第9行)是数据域说明,在它下面的全是数据。其中每一行体表一条数据。
d) 例子中给出的数据域是最基本的表示方法,实际应用中,一般都是用稀疏表示法。
e) 此处对于arff文件格式不做进一步解释,不懂的地方可以给我留言。
二、总体思路
1、生成特征文件
2、文件格式转换
三、具体实现
参考:weka数据挖掘拾遗(一)---- 生成Arff格式文件
四、weka csv转为arff
虽然Weka也支持其他一些格式的文件,但是ARFF格式是支持的最好的。因此有必要在数据处理之前把数据集的格式转换成ARFF。
参考:http://miaochen314.blog.163.com/blog/static/8696422009227101756428/