【文件属性】:
文件名称:数据集:用于数据源分析和机器学习的源{d}数据集(“大代码”)
文件大小:21.62MB
文件格式:ZIP
更新时间:2024-02-24 10:07:53
github git machine-learning dataset datasets
来源{d}数据集
source {d}数据集,用于源代码分析和。
该存储库包含所有必要的工具和脚本,以重现数据集,以及它们可能涉及的学术论文。
可用数据集
公共Git存档
大小:6TB
描述:来自GitHub的260k +书签库,由1.36亿多个文件和约280亿行代码组成。
编程语言标识符
大小:1GB
描述:从10多种编程语言中提取的约49M个不同的标识符。
代码重复
大小:250MB
说明:2k Java文件和600个Java函数对,被多个程序员标记为相似或不同。
拉请求评论评论
大小:1.5GB
描述:自2015年1月到2018年12月,有2530万个GitHub PR评论评论。
提交讯息
大小:46GB
描述:截止2019年3月,有13亿个GitHub提交消息。
结构提交功能
大小:1.9GB
描述:在GitHub上的622个Java存储库中有160万个提交。
DockerHub元数据
大小:1.4 GB
描述:2019年6月在获得146万个Docker映像配置和清单文件。
DockerHub软件包
大小:15GB
描述:419092分析了Docker映像: