文件名称:论文研究-基于Token的结构化匹配同源性代码检测技术研究.pdf
文件大小:1.67MB
文件格式:PDF
更新时间:2022-08-11 14:59:31
同源性检测,公共子序列,结构化信息,代码变体
对于结构性代码变换,基于Token的同源性检测技术缺乏抽象提取手段,难以识别和定位结构化信息。为此,针对代码同源性检测结构化匹配进行了研究,在LCS(longest common sequence)算法中融入了跳变信息保留、结构边界划分、窗口搜索、计数重置、有效序列界定等逻辑,用于Token摘要的结构化信息匹配,提出了一种结构化匹配同源性代码检测技术,并通过实际工程代码样本进行多种场景的实验测试。实验表明,该方法能够高效识别代码结构化信息,对于代码同源性检测是有效的。