最近在系统的学习一下机器学习方法。在这里记录一下学习笔记,一方面是记录下来,自己也方便看,一方面也是希望感兴趣的朋友们一起学习交流。笔记中有些是摘录自《Machine Learning in Action》一书。
K-近邻算法
简单的说,就是采用测量不同的特征值之间的距离方法来进行分类
优点:精度高,对异常值不敏感,无数据输入假定
缺点:计算复杂度高,空间复杂度高,在实际使用中,必须保存全部数据集,这样会占用大量空间;且必须对每个数据都计算一次欧氏距离,非常耗时。
以下是我做的笔记:
再描述一下计算过程:
1.计算已知类别数据集中的点与当前点之间的距离
2.按照距离递增次序排列
3.选取与当前点距离最小的K个点
4.确定前k个点所在类别的出现概率
5.返回前k个点出现频率最高的类别作为当前点的预测类别