文件名称:高斯投影java源码-Big-data:大数据课程
文件大小:1.43MB
文件格式:ZIP
更新时间:2024-06-26 11:01:46
系统开源
高斯投影java源码 Bigdata-project-w2020 代码克隆检测 抽象的 代码克隆是指相似或相同的代码片段。 重用现有代码以提高软件生产力是面向对象编程的一个关键要素,这使得代码克隆检测和管理成为当前行业的主要关注点。 因此,这种克隆过程可能会导致严重影响维护成本的错误传播。 考虑到这个问题,检测代码克隆成为一个活跃的研究领域。 在我们的项目中,我们使用机器学习和相似性搜索在程序词法分析的基础上检测代码段之间的相似性。 我们使用了 K-Means 算法(将相似的代码分组在同一个集群中)和局部敏感哈希将相似的代码片段分组在同一个桶中。 一、简介 代码克隆是彼此相同的代码片段,这些克隆是通过程序员的复制和粘贴活动生成的,但是代码克隆的主要问题是错误的复制和软件维护的困难,因此必须检测这些克隆。 4种类型的克隆是: 精确克隆(类型 1):相同的代码段,除了注释、布局和空格的变化。 重命名克隆(类型 2):除了注释、标识符、类型、文字和布局的变化之外,在语法或结构上相似的代码段。 这些克隆也称为参数化克隆。 Near Miss clones(类型 3):复制的部分进行了进一步的修
【文件预览】:
Big-data-master
----README.md(13KB)
----Projectppt.pdf(287KB)
----CodeClone.csv(1.9MB)
----Kmeans.py(2KB)
----DataSetGeneration.py(2KB)
----KmeansWithHash.py(2KB)
----.DS_Store(8KB)
----Images()
--------token.png(73KB)
--------csv.png(75KB)
--------lsh.png(58KB)
--------logo.jpg(18KB)
--------elbow.png(32KB)
--------log1.jpg(38KB)
--------advance.png(55KB)
--------.DS_Store(6KB)
--------cluster.png(225KB)
----LSH.py(2KB)