⛄ 内容介绍
KNN(k Nearest Neighbor)算法是1种简单、有效、非参数的文本分类法,但缺点是样本相似度的计算量大,故不适用于有大量高维样本的文本。一方面,本文分析了KNN算法的优点和缺陷,采用了1种应用特征词提取和特征词聚合的方法来改进KNN算法在特征词提取方面的不足。另一方面,本文又深入研究了模拟退火算法思想,采用退火模拟思想的典型优化组方法和模拟退火算法原理来加快KNN算法的分类速度。最后,通过2种方法的加入改进了KNN分类算法。实验结果表明,本文提出的方法大大提高了分类算法的效率和性能。
⛄ 部分代码
clear;
clc;
% 训练数据、训练数据标签、测试数据、测试数据标签
load(['train_scale.mat']);
load(['train_labels.mat']);
load(['test_scale.mat']);
load(['test_labels.mat']);
K=8; % k一般低于训练样本数的平方根
error=0;
[mtrain,ntrain]=size(train_scale);
[mtest,ntest]=size(test_scale);
% 外循环控制测试数据,内循环控制训练数据
for i=1:mtest
dist=zeros(mtrain,1);
for j=1:mtrain
dist(j)=norm(train_scale(j,:)-test_scale(i,:)); %计算训练数据集与测试数据之间的欧氏距离dist
end
%将dist从小到大进行排序
[Y,I]=sort(dist,1);
%将训练数据对应的类别与训练数据排序结果对应
train_labels=train_labels(I);
%确定前K个点所在类别的出现频率
classNum=length(unique(train_labels));%取集合中的单值元素的个数,得到类别数量
predict_labels=zeros(1,classNum);
% 以下for循环统计分类的标签数量
for j=1:K
j=train_labels(j);
predict_labels(j)=predict_labels(j)+1;
end
%返回前K个点中出现频率最高的类别作为测试数据的预测分类
[~,idx]=max(predict_labels);
fprintf('该测试数据属于类 %d\n',idx);
fprintf('该测试数据的真实类为:%d\n',test_labels(i));
if idx~=test_labels(i)
error=error+1;
end
end
accuracy=(1-error/mtest)*100;
fprintf('准确率为:%f%%\n',accuracy);
⛄ 运行结果
⛄ 参考文献
[1]邓箴, 包宏. 用模拟退火改进的KNN分类算法[J]. 计算机与应用化学, 2010(3):5.2019), In press.
⛄ Matlab代码关注
❤️部分理论引用网络文献,若有侵权联系博主删除
❤️ 关注我领取海量matlab电子书和数学建模资料