sosed:在GitHub上找到类似的存储库

时间:2024-05-26 05:10:29
【文件属性】:

文件名称:sosed:在GitHub上找到类似的存储库

文件大小:207KB

文件格式:ZIP

更新时间:2024-05-26 05:10:29

Python

Sosed ,类似项目搜索 一种基于嵌入的方法来检测相似的软件项目。 苏塞德的历史 最初,我们创建了一种新颖的方法来将代码表示为源代码主题建模项目的一部分(尚未完成)。 在途中,我们发现使用新的表示形式,我们可以显式地测量任意代码段(甚至是项目!)之间的距离,并且在项目级别它可以正常工作。 我们决定将其作为独立工具实施,以验证我们方法的可行性并与社区共享。 另外, Sosed在俄语中的意思是“邻居”。 Sosed的运作方式 面向主题的代码表示 首先,我们采用了并使用训练了它们的嵌入。 然后,我们使用对嵌入进行聚类,以获得256组语义相似的标记。 这些集群反映了在大量源代码中子令牌级别上发生的主题。 我们将代码表示为子令牌中簇的分布。 我们假设在更广泛的意义上,具有相似分布的代码片段也相似。 搜索类似的项目 我们从Markovtsev等人的获得了900万个GitHub存储库的数据集。 它


【文件预览】:
sosed-master
----conda_env.yml(230B)
----input_examples()
--------input_evaluation.txt(4KB)
--------input.txt(357B)
----data()
--------clusters_info.pkl(29KB)
--------.gitkeep(0B)
----.github()
--------workflows()
----Dockerfile(528B)
----output()
--------output_evaluation_cosine.log(898KB)
--------output_evaluation_kl.log(901KB)
--------.gitkeep(0B)
----LICENSE(11KB)
----sosed_test()
--------test_data_processing.py(6KB)
--------__init__.py(0B)
--------test_pipeline.py(2KB)
----sosed()
--------utils.py(3KB)
--------run.py(9KB)
--------data_processing.py(10KB)
--------__init__.py(0B)
--------setup_tokenizer.py(411B)
----requirements.txt(143B)
----dendrogram.pdf(31KB)
----test_data()
--------test_output()
--------test_data()
----README.md(7KB)

网友评论