Python入门-编写抓取网站图片的爬虫-正则表达式

//生命太短我用Python！

//Python真是让一直用c++的村里孩子长知识了！

这个仅仅是一个测试，成功抓取了某网站1000多张图片。

下一步要做一个大新闻大工程

 #config = utf-8

 import urllib

 import urllib2

 import re

 import os

 global CNT

 CNT = 0

 def getHtml(url):

 #! /usr/bin/env python

     # -*- coding=utf-8 -*-

     # @Author pythontab.com

     #url="http://pythontab.com"

     req_header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',

     'Accept':'text/html;q=0.9,*/*;q=0.8',

     'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',

     'Accept-Encoding':'gzip',

     'Connection':'close',

     'Referer':None #注意如果依然不能抓取的话，这里可以设置抓取网站的host

     }

     req_header_2 = {

     'User-Agent':'Mozilla/5.0 (Windows NT 6.1; rv:28.0) Gecko/20100101 Firefox/28.0'

     }

     req_timeout = 5

     #status = urllib.urlopen(url).code

     #print status

     #if status != 200:

     #    print 'Http Error %s' % status

     #    return False

     req = urllib2.Request(url,None,req_header_2)

     resp = urllib2.urlopen(req,None,req_timeout)

     html = resp.read()

     return html

 def getAllUrl(html):

     reg = r'<a href="(.+)" target='

     theurl = re.compile(reg)

     url = re.findall(theurl,html)

     return url

 def getNext(html):

     reg = r"<a href='.+pai/(.+).html'"

     nxtre = re.compile(reg)

     nxt = re.findall(nxtre,html)

     return nxt[0]

 def getName(html):

     reg = r'<title>(.+)</title>'

     nare = re.compile(reg)

     name = re.findall(nare,html)

     return name[0]

 def getImg(name,html):

     global CNT

     reg = r'<img src="(.{0,80}\.jpg)" border="0"'

     imgre = re.compile(reg)

     imglist = re.findall(imgre,html)

     reg = r'src="(.{0,80}\.jpeg)" border'

     imgre = re.compile(reg)

     imglist.extend(re.findall(imgre,html))

     reg = r"<img src='(.{0,80}\.jpg)'"

     imgre = re.compile(reg)

     imglist.extend(re.findall(imgre,html))

     reg = r"<img src='(.{0,80}\.jepg)'"

     imgre = re.compile(reg)

     imglist.extend(re.findall(imgre,html))

     local = '.\%s-[%sp]' % (name,len(imglist))

     if os.path.exists(unicode(local,'utf-8')):

         return unicode(local,'utf-8')+u'was existed'

     os.mkdir(unicode(local,'utf-8'))

     x = 0

     for imgurl in imglist:

         print imgurl

         urllib.urlretrieve(imgurl,unicode(local+'\%s.jpg' % x,'utf-8'))

         x+=1

         CNT+=1

     return unicode('%s: get %s pthoto(s)' % (name,x),'utf-8')

 def getAll(num):

     global CNT

     nxt = 164680

     while num > 0:

         url = '---%s.html' % nxt

         print nxt

         html = getHtml(url)

         nxt -= 1

         num -= 1

         if html == False:

             print 'Error'

             continue

         print getImg(getName(html),html)

     return 'done! %s photos!' % str(CNT)

 def getAll_update(index):

     global CNT

     num = CNT

     urls = getAllUrl(getHtml(index))

     for url in urls:

         html = getHtml('---'+url)

         print getImg(getName(html),html)

     return 'done! %s photos!' % str(CNT-num)

 #print getAll(10)

 #html = getHtml('---')

 #print getNext(html)

 x = 3

 while x < 50:

     print getAll_update('---' % x)

     x+=1

 #print getAll_update('---')

header 伪装成浏览器

正则表达式 http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html //我也是刚刚学

基本都是一路百度写出来的

Python入门-编写抓取网站图片的爬虫-正则表达式的更多相关文章

使用python来批量抓取网站图片
今天"无意"看美女无意溜达到一个网站,发现妹子多多,但是可恨一个page只显示一张或两张图片,家里WiFi也难用,于是发挥"程序猿"的本色,写个小脚本,把图片扒 ...
php远程抓取网站图片并保存
以前看到网上别人说写程序抓取网页图片的,感觉挺神奇,心想什么时候我自己也写一个抓取图片的方法! 刚好这两天没什么事,就参考了网上一个php抓取图片代码,重点借鉴了匹配img标签和其src属性正则的写 ...
Python -- 网络编程 -- 抓取网页图片 -- 豆瓣妹子
首先分析页面URL,形如http://dbmeizi.com/category/[1-14]?p=[0-476] 图片种类对应编号: 1:'性感', 2:'有沟', 3:'美腿', 4:'小露点', ...
Python -- 网络编程 -- 抓取网页图片 -- 图虫网
字符串(str)编码成字节码(bytes),字节码解码为字符串获取当前环境编码:sys.stdin.encoding url编码urllib.parse.quote() url解码urllib.pa ...
python网络爬虫抓取网站图片
本文介绍两种爬取方式: 1.正则表达式 2.bs4解析Html 以下为正则表达式爬虫,面向对象封装后的代码如下: import urllib.request # 用于下载图片 import os im ...
php 文件操作之抓取网站图片
$str= file_get_contents("http://v.qq.com/");preg_match_all("/\<img\s+src=.*\s*\&gt ...
【转】详解抓取网站，模拟登陆，抓取动态网页的原理和实现（Python，C&num;等）
转自:http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_ ...
利用wget 抓取网站网页包括css背景图片
利用wget 抓取网站网页包括css背景图片 wget是一款非常优秀的http/ftp下载工具,它功能强大,而且几乎所有的unix系统上都有.不过用它来dump比较现代的网站会有一个问题:不支持c ...
百度图片爬虫-python版-如何爬取百度图片&quest;
上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://www.cnblogs.com/huangxie/p/5473273.html 这一篇我想写写如何爬取百度图片的爬虫 ...

随机推荐

SQL Server 2008 R2 找不到 Install SQL Server Profiler 找不到事件探查器解决
摘自: http://blog.csdn.net/yuxuac/article/details/8992893 SQL Server 2008 R2 Express Edition - Install ...
Ubuntu16&period;04安装VMware Tools问题
*************************************************************************** 问题:客户机操作系统已将 CD-ROM 门锁定, ...
UVALive 4287 Proving Equivalences（缩点）
等价性问题,给出的样例为 a->b的形式,问要实现全部等价(即任意两个可以互相推出),至少要加多少个形如 a->b的条件. 容易想到用强连通缩点,把已经实现等价的子图缩掉,最后剩余DAG. ...
绑定dropdownlist
System.Data.SqlClient.SqlConnection sqlconn = new System.Data.SqlClient.SqlConnection(); sqlconn.C; ...
java --- 对象的创建过程
java 对象创建的过程存在了继承关系之后,对象创建过程如下: 1.分配空间.要注意的是,分配空间不光是分配子类的空间,子类对象中包含的父类对象所需要的空间,一样在这一步统一分配.在分配的空间的时候 ...
allegro 导Gerber文件
今天抽空好好整理了一下有关Allegro出Gerber文件文档,此文档在网上搜到的基础上进一步完善,把每个需要注意的地方都用红色字体框出 http://files.cnblogs.com/files/ ...
DOM中元素对象的属性方法
在 HTML DOM (文档对象模型)中,每个部分都是节点. 节点是DOM结构中最基本的组成单元,每一个HTML标签都是DOM结构的节点. 文档是一个文档节点 . 所有的HTML元素都是 ...
Ocelot中文文档-跟踪
Ocelot使用一个杰出的项目Butterfly 提供了跟踪功能. 为了使用跟踪,请阅读Butterfly的文档. 在Ocelot中如果你想跟踪一个ReRoute,你需要做如下事情: 在Configu ...
Bandwagon的配置记录(一) —— kexue上网
写在前面这是kexue上网的一种方法. 看文章前,先拉最底下,看一遍“写在最后”. 租个服务器我租了个洛杉矶的服务器,系统是ubuntu16.04 x86_64 进入KiwiVM Control ...
Vue项目用了脚手架vue-cli3&period;0，会报错You are using the runtime-only build of Vue where the template compiler is not available&period;&period;&period;&period;&period;
摘自: https://blog.csdn.net/wxl1555/article/details/83187647 报错信息如下图: 报错原因是:vue有两种形式的代码:一种是compiler(模版 ...