直接利用numpy读取非数字型的数据集时需要先进行转换,而且python3在处理中文数据方面确实比较蛋疼。最近在学习周志华老师的那本西瓜书,需要没事和一堆西瓜反复较劲,之前进行联系的时候都是利用批量替换先清理一遍数据,不过这样实在是太麻烦了,今天偶然发现可以使用pandas来实现读取中文数据集的功能。
首先分享一下数据集:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
|
编号,色泽,根蒂,敲声,纹理,脐部,触感,密度,含糖率,好瓜
1 ,青绿,蜷缩,浊响,清晰,凹陷,硬滑, 0.697 , 0.46 ,是
2 ,乌黑,蜷缩,沉闷,清晰,凹陷,硬滑, 0.774 , 0.376 ,是
3 ,乌黑,蜷缩,浊响,清晰,凹陷,硬滑, 0.634 , 0.264 ,是
4 ,青绿,蜷缩,沉闷,清晰,凹陷,硬滑, 0.608 , 0.318 ,是
5 ,浅白,蜷缩,浊响,清晰,凹陷,硬滑, 0.556 , 0.215 ,是
6 ,青绿,稍蜷,浊响,清晰,稍凹,软粘, 0.403 , 0.237 ,是
7 ,乌黑,稍蜷,浊响,稍糊,稍凹,软粘, 0.481 , 0.149 ,是
8 ,乌黑,稍蜷,浊响,清晰,稍凹,硬滑, 0.437 , 0.211 ,是
9 ,乌黑,稍蜷,沉闷,稍糊,稍凹,硬滑, 0.666 , 0.091 ,否
10 ,青绿,硬挺,清脆,清晰,平坦,软粘, 0.243 , 0.267 ,否
11 ,浅白,硬挺,清脆,模糊,平坦,硬滑, 0.245 , 0.057 ,否
12 ,浅白,蜷缩,浊响,模糊,平坦,软粘, 0.343 , 0.099 ,否
13 ,青绿,稍蜷,浊响,稍糊,凹陷,硬滑, 0.639 , 0.161 ,否
14 ,浅白,稍蜷,沉闷,稍糊,凹陷,硬滑, 0.657 , 0.198 ,否
15 ,乌黑,稍蜷,浊响,清晰,稍凹,软粘, 0.36 , 0.37 ,否
16 ,浅白,蜷缩,浊响,模糊,平坦,硬滑, 0.593 , 0.042 ,否
17 ,青绿,蜷缩,沉闷,稍糊,稍凹,硬滑, 0.719 , 0.103 ,否
|
然后利用pandas将它读进来:
1
2
3
|
import pandas
d = pandas.read_csv(r "d:\data.csv" ,sep = "," )
print (d)
|
如果要选取某一行数据,可以使用head方法:
1
|
d.head( 1 )
|
其中参数是行号。
也可以直接取某一列,如:
1
|
d[ '色泽' ]
|
如果要取某一个数据则可以将两种方法结合使用:
1
|
d.head( 1 )[ '色泽' ]
|
以上这篇利用pandas读取中文数据集的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持服务器之家。
原文链接:https://blog.csdn.net/SuoMaLiXiongMao/article/details/51658249