Kmeans聚类代码实现、作业及优化

一. 案例实现

这里不再赘述，详见第二篇文章，直接上代码，这是我的学生完成的作业。
数据集：
下载地址：KEEL-dataset - Basketball data set
篮球运动员数据，每分钟助攻和每分钟得分数。通过该数据集判断一个篮球运动员属于什么位置（控位、分位、中锋等）。完整数据集包括5个特征，每分钟助攻数、运动员身高、运动员出场时间、运动员年龄和每分钟得分数。

[python] view plain copy

assists_per_minute height time_played age points_per_minute
0 0.0888 201 36.02 28 0.5885
1 0.1399 198 39.32 30 0.8291
2 0.0747 198 38.80 26 0.4974
3 0.0983 191 40.71 30 0.5772
4 0.1276 196 38.40 28 0.5703
5 0.1671 201 34.10 31 0.5835
6 0.1906 193 36.20 30 0.5276
7 0.1061 191 36.75 27 0.5523
8 0.2446 185 38.43 29 0.4007
9 0.1670 203 33.54 24 0.4770
10 0.2485 188 35.01 27 0.4313
11 0.1227 198 36.67 29 0.4909
12 0.1240 185 33.88 24 0.5668
13 0.1461 191 35.59 30 0.5113
14 0.2315 191 38.01 28 0.3788
15 0.0494 193 32.38 32 0.5590
16 0.1107 196 35.22 25 0.4799
17 0.2521 183 31.73 29 0.5735
18 0.1007 193 28.81 34 0.6318
19 0.1067 196 35.60 23 0.4326
20 0.1956 188 35.28 32 0.4280

完整代码：
[python] view plain copy

# -*- coding: utf-8 -*-
from sklearn.cluster import Birch
from sklearn.cluster import KMeans
X = [[0.0888, 0.5885],
[0.1399, 0.8291],
[0.0747, 0.4974],
[0.0983, 0.5772],
[0.1276, 0.5703],
[0.1671, 0.5835],
[0.1906, 0.5276],
[0.1061, 0.5523],
[0.2446, 0.4007],
[0.1670, 0.4770],
[0.2485, 0.4313],
[0.1227, 0.4909],
[0.1240, 0.5668],
[0.1461, 0.5113],
[0.2315, 0.3788],
[0.0494, 0.5590],
[0.1107, 0.4799],
[0.2521, 0.5735],
[0.1007, 0.6318],
[0.1067, 0.4326],
[0.1956, 0.4280]
]
print X
# Kmeans聚类
clf = KMeans(n_clusters=3)
y_pred = clf.fit_predict(X)
print(clf)
print(y_pred)
import numpy as np
import matplotlib.pyplot as plt
x = [n[0] for n in X]
print x
y = [n[1] for n in X]
print y
# 可视化操作
plt.scatter(x, y, c=y_pred, marker='x')
plt.title("Kmeans-Basketball Data")
plt.xlabel("assists_per_minute")
plt.ylabel("points_per_minute")
plt.legend(["Rank"])
plt.show()

运行结果：
从图中可以看到聚集成三类，红色比较厉害，得分很高；中间蓝色是一类，普通球员；右小角绿色是一类，助攻高得分低，是控位。

Kmeans聚类代码实现、作业及优化

代码分析：

[python] view plain copy

from sklearn.cluster import KMeans

表示在sklearn中处理kmeans聚类问题，用到 sklearn.cluster.KMeans 这个类。
[python] view plain copy

X = [[164,62],[156,50],...]

X是数据集，包括2列20行，即20个球员的助攻数和得分数。
[python] view plain copy

clf = KMeans(n_clusters=3)

表示输出完整Kmeans函数，包括很多省略参数，将数据集分成类簇数为3的聚类。
[python] view plain copy

y_pred =clf.fit_predict(X)

输出聚类预测结果，对X聚类，20行数据，每个y_pred对应X的一行或一个孩子，聚成3类，类标为0、1、2。
[python] view plain copy

print(y_pred)

输出结果：[0 2 0 0 0 0 0 0 1 0 1 0 0 0 1 0 0 0 0 0 1]
[python] view plain copy

import matplotlib.pyplot as plt

matplotlib.pyplot是用来画图的方法，matplotlib是可视化包。
[python] view plain copy

x = [n[0] for n in X]
y = [n[1] for n in X]

获取第1列的值，使用for循环获取 ,n[0]表示X第一列。
获取第2列的值，使用for循环获取 ,n[1]表示X第2列。
[python] view plain copy

plt.scatter(x, y, c=y_pred, marker='o')

绘制散点图（scatter），横轴为x，获取的第1列数据；纵轴为y，获取的第2列数据；c=y_pred对聚类的预测结果画出散点图，marker='o'说明用点表示图形。
[python] view plain copy

plt.title("Kmeans-Basketball Data")

表示图形的标题为Kmeans-heightweight Data。
[python] view plain copy

plt.xlabel("assists_per_minute")

表示图形x轴的标题。
[python] view plain copy

plt.ylabel("points_per_minute")

表示图形y轴的标题。
[python] view plain copy

plt.legend(["Rank"])

设置右上角图例。
[python] view plain copy

plt.show()

表示显示图形。

二. 学生图例

下面简单展示学生做的作业及分析，感觉还是不错，毕竟才上几节课而且第一次作业，希望后面的作业更加精彩吧。因为学生的专业分布不同，所以尽量让学生设计他们专业的内容。
eg 遗传学身高体重数据
第一列表示孩子的身高，单位cm；第二列表示孩子的体重，单位kg。从上图可以看出，数据集被分为了三类。绿色为一类、蓝色为一类，红色为一类。

eg 微博数据集
第一列代表微博中某条信息的转发量，第二列代表微博中某条信息的评论数。从上图可以看出，总共分为3类，共三种颜色，绿色一层说明该信息转发量与评论数都很高。

Kmeans聚类代码实现、作业及优化

eg 上市公司财务报表
第一列表示公司利润率；第二列表示公司资产规模。从上图可以看出，总共分为4类，共四种颜色。暗红色为资产规模最大，依次至蓝色资产规模减小。

eg 世界各国家人均面积与土地面积
第一列表示各国家的人均面积（人/ 平方公里）；第二列表示各国家的土地面积（万平方公里）。从上图可以看出，总共分为3类，共三种颜色。红色表示的国家相对来说最拥挤，可能是孟加拉这样土地面积少且人口众多的国家；蓝色就是地广人稀的代表，比如俄罗斯、美国、、墨西哥、巴西；绿色表示人口密度分布比较平均的国家。

Kmeans聚类代码实现、作业及优化