基于python爬虫的github-exploitdb漏洞库监控与下载

offensive.py(爬取项目历史更新内容)

#!/usr/bin/env python

# -*- coding:utf-8 -*-

import re

import time

import urllib.request

import conf as cf

BASE_URL = 'https://github.com/offensive-security/exploitdb/releases'

DOWNLOAD_LINK_PATTERN = 'href="(.*?)zip" rel="nofollow">'

FIRST_PATTERN = r'</span><a rel="nofollow" href="(.*?)">Next.*'

PAGE_PATTERN = r'>Previous</a><a rel="nofollow" href="(.*?)">Next.*'

class MyCrawler:

def __init__(self, base_url=BASE_URL, start_page="first 1 page"):

self.base_url = base_url

self.start_page = start_page

# self.headers = apache_request_headers();

# 对首页的爬取

def first_page(self):

try:

req = urllib.request.Request(self.base_url)

html = urllib.request.urlopen(req)

doc = html.read().decode('utf8', 'ignore')

next_page = re.search(FIRST_PATTERN, doc, re.M | re.I)

print('Now working on page = {}\n'.format(self.start_page))

time.sleep(5)

self.fetch_download_link(self.base_url)

self.start_page = next_page.group(1)

# re.search(r'after = (.*?) ">Next.*', next_page.group(1), re.M | re.I).group(1)

self.base_url = next_page.group(1)

# self.fetch_download_link(next_url)

except urllib.error.HTTPError as err:

print(err.msg)

self.fetch_next_page()

# 翻页

def fetch_next_page(self):

while True:

try:

req = urllib.request.Request(self.base_url)

html = urllib.request.urlopen(req)

doc = html.read().decode('utf8', 'ignore')

next_page = re.search(PAGE_PATTERN, doc, re.M | re.I)

print('Now working on page {}\n'.format(self.start_page))

time.sleep(5)

#翻页时等待5秒

self.fetch_download_link(self.base_url)

self.start_page = next_page.group(1)

# re.search(r'after = (.*?) ">Next.*', next_page.group(1), re.M | re.I).group(1)

self.base_url = next_page.group(1)

# self.fetch_download_link(next_url)

except urllib.error.HTTPError as err:

print(err.msg)

break

# 文件下载：将下载链接存到文件中

def fetch_download_link(self, Aurl):

f = open('result.txt', 'a')

req = urllib.request.Request(Aurl)

html = urllib.request.urlopen(req)

doc = html.read().decode('utf8')

alist = list(set(re.findall(DOWNLOAD_LINK_PATTERN, doc)))

for item in alist:

url = "https://github.com/" + item + "zip"

print('Storing {}'.format(url))

f.write(url + '\n')

time.sleep(7)

f.close()

def run(self):

self.fetch_download_link()

if __name__ == '__main__':

mc = MyCrawler()

mc.first_page()

text.py(监控首页更新，并爬取)

#!/usr/bin/env python

# -*- coding:utf-8 -*

from selenium import webdriver

import re

import time

import urllib.request

import conf as cf

BASE_URL = 'https://github.com/offensive-security/exploitdb/releases'

DOWNLOAD_LINK_PATTERN = 'href="(.*?)zip" rel="nofollow">'

FIRST_PATTERN = r'</span><a rel="nofollow" href="(.*?)">Next.*'

# 监控项目首页更新

def jiankong_page():

print("star monitoring ")

req = urllib.request.Request(BASE_URL)

html = urllib.request.urlopen(req)

doc = html.read().decode('utf8', 'ignore')

next_page = re.search(FIRST_PATTERN, doc, re.M | re.I)

flag_page = next_page.group(1)

flag_list = []

# 首次抓取首页项目url

alist = list(set(re.findall(DOWNLOAD_LINK_PATTERN, doc)))

for item in alist:

url = "https://github.com/" + item + "zip"

flag_list.append(url)

# 定时扫描监控（5h/次）

while True:

try:

time.sleep(5 * 60* 60)

req = urllib.request.Request(BASE_URL)

html = urllib.request.urlopen(req)

doc = html.read().decode('utf8', 'ignore')

next_page = re.search(FIRST_PATTERN, doc, re.M | re.I)

# 判断翻页链接是否变化，来确定是否更新

if next_page.group(1) != flag_page:

print("have update")

item = re.rearch(DOWNLOAD_LINK_PATTERN, doc, re.M | re.I)

#抓取第一个匹配的刚更新的项目url

new_url = "https://github.com/" + item.group(1) + "zip"

print("new url = " + new_url)

flag_list.append(new_url)

f = open('result.txt', 'a')

f.write(new_url + '\n')

f.close()

flag_page = next_page.group(1)

else:

print("No update")

except urllib.error.HTTPError as err:

print(err.msg)

break

if __name__ == '__main__':

jiankong_page()

介绍一下我自己吧，我是Fisher，互联网安全作者一枚，日常是分享有趣的安全技术与故事，当然也会记录学习之路的收获。对安全领域感兴趣，可以关注我的个人微信公众号：austfish。不想走丢的话，请关注【Fisher的安全日记】！（别忘了加星标哦）or 个人博客：www.austfish.cn

基于python爬虫的github-exploitdb漏洞库监控与下载的更多相关文章

性能测试基于Python结合InfluxDB及Grafana图表实时监控Android系统和应用进程
基于Python结合InfluxDB及Grafana图表实时监控Android系统和应用进程 By: 授客 QQ:1033553122 1．测试环境 2．实现功能 3．使用前提 4． ...
【图文详解】python爬虫实战——5分钟做个图片自动下载器
python爬虫实战——图片自动下载器之前介绍了那么多基本知识[Python爬虫]入门知识,(没看的先去看!!)大家也估计手痒了.想要实际做个小东西来看看,毕竟: talk is cheap sho ...
python爬虫实战——5分钟做个图片自动下载器
python爬虫实战——图片自动下载器制作爬虫的基本步骤顺便通过这个小例子,可以掌握一些有关制作爬虫的基本的步骤. 一般来说,制作一个爬虫需要分以下几个步骤: 分析需求(对,需求分析非常重要, ...
Python爬虫之足球小将动漫（图片）下载
尽管俄罗斯世界杯的热度已经褪去,但这届世界杯还是给全世界人民留下了无数难忘的回忆,不知你的回忆里有没有日本队的身影?本次世界杯中,日本队的表现让人眼前一亮,很难想象,就是这样一只队伍,二十几年还是 ...
python爬虫3——获取审查元素(板野友美吧图片下载)
测试环境:python2.7 + beautifulsoup4.4.1 + selenium2.48.0 测试网址:http://tieba.baidu.com/p/2827883128 目的是下载该 ...
[原创]一种基于Python爬虫和Lucene检索的垂直搜索引擎的实现方法介绍
声明:本文首发在博客园晨星落羽,Shulin_Cao和lvmememe首页,转载请注明出处. 前言 2016.5到2017.5,我们三人(lvmememe,Shulin_Cao,晨星落羽)共同完成了一 ...
基于Python爬虫采集天气网实时信息
相信小伙伴们都知道今冬以来范围最广.持续时间最长.影响最重的一场低温雨雪冰冻天气过程正在进行中.预计,今天安徽.江苏.浙江.湖北.湖南等地有暴雪,局地大暴雪,新增积雪深度4-8厘米,局地可达10- ...
Python爬虫获取异步加载站点pexels并下载图片(Python爬虫实战3)
1. 异步加载爬虫对于静态页面爬虫很容易获取到站点的数据内容,然而静态页面需要全量加载站点的所有数据,对于网站的访问和带宽是巨大的挑战,对于高并发和大访问访问量的站点来说,需要使用AJAX相关的技术 ...
python 爬虫学习&lt&semi;将某一页的所有图片下载下来&gt&semi;
在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材. 我们最常规的做法就是通过鼠标右键,选择另存为.但有些图片鼠标右键的 ...

随机推荐

Oracle策略相关
Oracle策略可以限制查询.修改.删除.新增等操作,刚接触,对查询做一个测试: 参照 http://blog.csdn.net/diyyong/article/details/19552637 用法 ...
Sqlserver 语法总结
修改列类型 alter table PRO_Element_b alter column matname varchar(1024) 更改一个表中的数据到另外一个表中 update a set a.n ...
JSON&period;stringify的使用方法
语法: JSON.stringify(value [, replacer] [, space]) value:是必须要的字段.就是你输入的对象,比如数组啊,类啊等等. replacer:这个是可选的. ...
RFM
前面博客中讲到的聚类,聚类是对客户的一些特征进行分群,属于描述,不涉及客户价值的判断,然而在营销中,其实第一步应该是搞清楚谁才是你的关键客户,哪些用户的价值较高,这就需要用到RFM模型.RFM模型是众 ...
IOS开发中NSRunloop跟NSTimer的问题
在Windows时代,大家肯定对SendMessage,PostMessage,GetMessage有所了解,这些都是windows中的消息处理函数,那对应在ios中是什么呢,其实就是NSRunloo ...
【PHP设计模式 06&lowbar;GuanChaZhe&period;php】观察者模式
<?php /** * [观察者模式] * PHP5中提供了观察者(observer) 和被观察者(subject) 的接口 * 在手册搜索:SplSubject (PHP 5 >= ...
hdu 2426 Interesting Housing Problem 最大权匹配KM算法
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=2426 For any school, it is hard to find a feasible ac ...
elasticsearch常用命令备注
1.检查集群健康状态 curl 'localhost:9200/_cat/health?v' 2.检查节点健康状态 curl 'localhost:9200/_cat/nodes?v' 3.新增一条索 ...
ceph&colon; health&lowbar;warn clock skew detected on mon的解决办法
造成集群状态health_warn:clock skew detected on mon节点的原因有两个,一个是mon节点上ntp服务器未启动,另一个是ceph设置的mon的时间偏差阈值比较小. 排查 ...
centos5&period;5 快速安装mysql
安装MySQL. [root@sample ~]# yum -y install mysql-server ← 安装MySQL[root@sample ~]# yum -y install php-m ...