github-scraper:抓取来自 Github 用户的电子邮件 commitsprofiles

时间:2024-06-18 21:33:45
【文件属性】:

文件名称:github-scraper:抓取来自 Github 用户的电子邮件 commitsprofiles

文件大小:9.96MB

文件格式:ZIP

更新时间:2024-06-18 21:33:45

HTML

github-scraper 使用 GitHub 的 API 来获取推送事件中的公共电子邮件,甚至通过用户的个人资料。 大多数人不会出于任何原因在 GitHub 上隐藏他们的电子邮件。 其含义可能是将代码与工作档案联系起来、使用自动电子邮件进行人才采购、DoSing 网站、在公司寻找开发人员、在感兴趣的领域寻找开发人员等。 您每天可以抓取大约 5000x100x24 = 12,000,000 个用户。 我认为在撰写本文时有 50-6000 万用户,无法得到准确估计。 抓取电子邮件更烦人。 由于 API 速率限制,您每天只能执行 5000x24 = 120,000 次。 GraphQL API 每天可以为您处理 12,000,000 封电子邮件,但它不是有序的,所以我不能真正相信编写代码来抓取它的容错性。 另外,您无法通过在 id 块上运行不同的刮刀来并行化它。 需要探索在cron作


【文件预览】:
github-scraper-master
----.gitignore(22B)
----package.json(435B)
----heatmap.py(4KB)
----data()
--------top_500_email_domains.txt(10KB)
--------word-clouds()
--------other()
--------heatmap.html(45KB)
--------commit_comments_per_day.txt(73KB)
--------top_5000_bio_words.txt(87KB)
--------5000_most_common_words_commit_comments.txt(91KB)
--------users_per_day.txt(245KB)
--------top_5000_companies.txt(107KB)
--------heatmap_ghtorrent.html(257KB)
--------top_100_projects_by_language.txt(2KB)
--------top_5000_companies_ghtorrent.txt(108KB)
--------top_500_tlds.txt(7KB)
--------coordinates.txt(166KB)
--------charts()
----scraper.js(12KB)
----package-lock.json(36KB)
----github-analysis.png(825KB)
----analysis.py(6KB)
----ghtorrent-postgres-import.txt(805B)
----README.md(3KB)
----db.js(2KB)
----cron.sh(535B)
----logs()
--------log.txt(194KB)
--------scraper.log(751KB)
--------lastChecked(33B)
--------error.log(2KB)
--------process.txt(784B)
--------npm-debug.log(3KB)
----blog.md(8KB)

网友评论