文件名称:github-corpora:用于抓取 GitHub API 和从公共 API 中提取的数据的工具
文件大小:456.41MB
文件格式:ZIP
更新时间:2024-07-18 15:18:28
Python
GitHub 语料库 用于抓取 GitHub API 和结果数据(都是公开的)的脚本。 export GITHUB_TOKEN=YTaSQhwUqb5gyNKCOXfveplH4GVcEsLxBjW0rnio python repositories.py data/repositories-*.json中的对象是对您从 API v3 /repositories 获得的内容的轻微修改,主要是删除了可以预测的冗余 url,大概是给定full_name字段。 # count number of repos with capitals in the name cat data/repositories-*.json json -C name | grep [A-Z] | wc -l # count some other stuff like that repository_counts.s
【文件预览】:
github-corpora-master
----git-commit-push(95B)
----README.md(773B)
----repos.py(2KB)
----data()
--------repositories-28.json(47.68MB)
--------repositories-07.json(47.68MB)
--------repositories-19.json(47.68MB)
--------repositories-11.json(47.68MB)
--------repositories-04.json(47.68MB)
--------repositories-27.json(47.68MB)
--------repositories-38.json(47.68MB)
--------repositories-12.json(47.68MB)
--------repositories-14.json(47.68MB)
--------repositories-01.json(47.68MB)
--------repositories-15.json(47.68MB)
--------repositories-25.json(47.68MB)
--------repositories-26.json(47.68MB)
--------repositories-05.json(47.68MB)
--------repositories-24.json(47.68MB)
--------repositories-39.json(47.68MB)
--------repositories-31.json(47.68MB)
--------repositories-30.json(47.68MB)
--------repositories-10.json(47.68MB)
--------repositories-13.json(47.68MB)
--------repositories-22.json(47.68MB)
--------repositories-03.json(47.68MB)
--------repositories-36.json(47.68MB)
--------repositories-40.json(47.68MB)
--------repositories-16.json(47.68MB)
--------repositories-02.json(47.68MB)
--------repositories-06.json(47.68MB)
--------repositories-09.json(47.68MB)
--------repositories-21.json(47.68MB)
--------repositories-17.json(47.68MB)
--------repositories-18.json(47.68MB)
--------repositories-37.json(47.68MB)
--------repositories-33.json(47.68MB)
--------repositories-08.json(47.68MB)
--------repositories-29.json(47.68MB)
--------repositories-34.json(47.68MB)
--------repositories-32.json(47.68MB)
--------repositories-41.json(16.38MB)
--------repositories-23.json(47.68MB)
--------repositories-20.json(47.68MB)
--------repositories-35.json(47.68MB)
----.gitignore(24B)
----counts.sh(249B)