文件名称:基于最佳簇数的网络钓鱼检测模型的分类器性能评估-研究论文
文件大小:694KB
文件格式:PDF
更新时间:2024-06-30 01:19:27
Web based phishing
人们对互联网的大量使用促进了日常生活中大量的在线交易。 这需要数百万用户通过在线提交用户名、密码和银行凭据等信息来参与。 如此庞大的个人信息的可用性吸引并激励网络犯罪分子在在线网络中发起网络攻击,以窃取信息以进行进一步的金融犯罪。 在这些攻击中,网络钓鱼是一种网络钓鱼者建立一个看起来与合法网站相似的虚假网站,并向目标受害者发送虚假邮件以窃取他们信息的一种攻击。 这种行为可能导致相应组织的用户凭证和声誉的潜在损失。 由于庞大的训练数据集中存在不确定性,现有的依赖分类器性能的网络钓鱼检测方法的检测率很低。 因此,如果不确定性降低,则性能可以提高,这是很直观的。 此外,在本文中,聚类用于在分类之前获得数据点的固有结构。 聚类算法,即 k-means 和 k-median 是针对不同数量的聚类值“k”运行的。 轮廓标准用于找到数据集中存在的最佳聚类数。 分类器、决策树 (DT)、随机森林 (RF) 和支持向量机 (SVM) 都针对每个最佳集群范围进行了训练。 从检测率、灵敏度、特异性和错误率方面分析针对相应分类器训练的模型的性能。 从实验结果可以看出,与最优簇数相结合,而不是与任意簇范围相结合,分类器的性能得到了更好的提高。