文件名称:数据集:用于数据源分析和机器学习的源{d}数据集(“大代码”)
文件大小:21.62MB
文件格式:ZIP
更新时间:2024-02-24 10:07:53
github git machine-learning dataset datasets
来源{d}数据集 source {d}数据集,用于源代码分析和。 该存储库包含所有必要的工具和脚本,以重现数据集,以及它们可能涉及的学术论文。 可用数据集 公共Git存档 大小:6TB 描述:来自GitHub的260k +书签库,由1.36亿多个文件和约280亿行代码组成。 编程语言标识符 大小:1GB 描述:从10多种编程语言中提取的约49M个不同的标识符。 代码重复 大小:250MB 说明:2k Java文件和600个Java函数对,被多个程序员标记为相似或不同。 拉请求评论评论 大小:1.5GB 描述:自2015年1月到2018年12月,有2530万个GitHub PR评论评论。 提交讯息 大小:46GB 描述:截止2019年3月,有13亿个GitHub提交消息。 结构提交功能 大小:1.9GB 描述:在GitHub上的622个Java存储库中有160万个提交。 DockerHub元数据 大小:1.4 GB 描述:2019年6月在获得146万个Docker映像配置和清单文件。 DockerHub软件包 大小:15GB 描述:419092分析了Docker映像: