【Python】爬虫-1

#练习1：获取搜狐网页上所有的URL并且把与篮球有关的内容筛选出来

#算法：

#、获取搜狐网站所有内容

#、判断哪些是链接，获取URL格式有效的链接

#、获取每个有效URL网页的内容

#、判断内容是否包含篮球

#、如果包含篮球，保存网页

import requests

import re

import bs4

resq = requests.get("http://www.sohu.com")#请求搜狐网站

print resq.text[:]#打印响应结果前一百长度

print "*****************"*

links = re.findall(r'href="(.*?)"', resq.text)#查找所有包含href内容

#print links

print len(links)

valid_link = []#保存有效连接

invalid_link = []#保存无效连接

print "*****************"*

for link in links:

    if re.search(r"(\.jpg)|(\.jpeg)|(\.gif)|(\.ico)|(\.png)|(\.js)|(\.css)$", link.strip()):#资源连接筛选出来

        #print , link

        invalid_link.append(link.strip())

        continue#进入此判断之后执行完直接执行下一次循环

    elif link.strip() == "" or link.strip() == "#" or link.strip() == "/":#无效内容筛选去除

        #print ,link

        invalid_link.append(link)

        continue

    elif link.strip().startswith("//"):#把有效相对连接筛选保存

        #print ,link

        valid_link.append("http:" + link.strip())

        continue

    elif link.strip().count("javascript") >=  or link.strip().count("mailto:") >= :#引用js连接及邮箱超级连接去除

        #print ,link

        invalid_link.append(link.strip())

        continue

    elif re.match(r"/\w+", link):#把剩下所有内容连接再做进一步筛选

        #print ,link

        if re.match(r"http://.*?/", resq.url.strip()):#http开头连接筛选

            valid_link.append(re.match(r"http://.*?/", resq.url.strip()).group() + link.strip())#把连接以/结尾内容保存

        else:

            valid_link.append(re.match(r"http://.*", resq.url.strip()).group() + link.strip())#把连接以内容结尾保存

        continue

    else:

        #print ,link

        valid_link.append(link.strip())#筛选剩下的内容都保存到有效列表中

print "*****************"*

file_num = #为创建文件准备

for link in list(set(valid_link)):

    # print link

    resq = requests.get(link, verify=True)#允许证书校验并访问所有保存的有效连接

    if u"篮球" in resq.text:#筛选网页内容中是否存在“篮球”内容

        #print link

        if u'meta charset="utf-8"' in resq.text:#判断网页是否以utf-8编码

            with open(r"e:\\test4\\crawler\\" + str(file_num) + ".html", "w") as fp:

                fp.write(resq.text.strip().encode("utf-8"))#编码内容为utf-8后保存到指定目录

        else:

            with open(r"e:\\test4\\crawler\\" + str(file_num) + ".html", "w") as fp:

                fp.write(resq.text.strip().encode("gbk"))#编码内容为gbk后保存到指定目录

        file_num += 

print "Done!"

【Python】爬虫-1的更多相关文章

Python 爬虫模拟登陆知乎
在之前写过一篇使用python爬虫爬取电影天堂资源的博客,重点是如何解析页面和提高爬虫的效率.由于电影天堂上的资源获取权限是所有人都一样的,所以不需要进行登录验证操作,写完那篇文章后又花了些时间研究了 ...
python爬虫成长之路（一）：抓取证券之星的股票数据
获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为python3.5,意在抓取证券之星上当天所 ...
python爬虫学习(7) —— 爬取你的AC代码
上一篇文章中,我们介绍了python爬虫利器--requests,并且拿HDU做了小测试. 这篇文章,我们来爬取一下自己AC的代码. 1 确定ac代码对应的页面如下图所示,我们一般情况可以通过该顺序 ...
python爬虫学习(6) —— 神器 Requests
Requests 是使用 Apache2 Licensed 许可证的 HTTP 库.用 Python 编写,真正的为人类着想. Python 标准库中的 urllib2 模块提供了你所需要的大多数 H ...
批量下载小说网站上的小说（python爬虫）
随便说点什么因为在学python,所有自然而然的就掉进了爬虫这个坑里,好吧,主要是因为我觉得爬虫比较酷,才入坑的. 想想看,你可以批量自动的采集互联网上海量的资料数据,是多么令人激动啊! 所以我就被 ...
python 爬虫（二）
python 爬虫 Advanced HTML Parsing 1. 通过属性查找标签:基本上在每一个网站上都有stylesheets,针对于不同的标签会有不同的css类于之向对应在我们看到的标签可能 ...
Python 爬虫1——爬虫简述
Python除了可以用来开发Python Web之后,其实还可以用来编写一些爬虫小工具,可能还有人不知道什么是爬虫的. 一.爬虫的定义: 爬虫——网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区 ...
Python爬虫入门一之综述
大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章作为参考,也欢迎大家一共分享学习经验. Pyth ...
[python]爬虫学习（一）
要学习Python爬虫,我们要学习的共有以下几点(python2): Python基础知识 Python中urllib和urllib2库的用法 Python正则表达式 Python爬虫框架Scrapy ...
python爬虫学习(1) —— 从urllib说起
0. 前言如果你从来没有接触过爬虫,刚开始的时候可能会有些许吃力因为我不会从头到尾把所有知识点都说一遍,很多文章主要是记录我自己写的一些爬虫所以建议先学习一下cuiqingcai大神的 Pyth ...

随机推荐

持续集成之Jenkins（坏老头）
点击关注哦↑↑↑↑↑↑↑↑↑ 持续集成有关持续集成的简介,可参考我此前的文章:http://blog.csdn.net/benkaoya/article/details/44993583 Jenki ...
Oracle数据库中的Function调用参数问题
在工作中用到了Oracle数据库,需要调用Oracle的Function,Function返回的游标和结果都是通过参数来获取的比如Function定义如下: , intype, ininttype) ...
php数组函数序列之array&lowbar;unshift() 在数组开头插入一个或多个元素
array_unshift() 函数在数组开头插入一个或多个元素.被加上的元素作为一个整体添加,这些元素在数组中的顺序和在参数中的顺序一样 array_unshift()定义和用法 array_uns ...
SharePoint服务器将连接配置数据库的连接字符串保存在什么地方？
经常有人问我这个问题,SharePoint服务器将连接配置数据库的连接字符串保存在什么地方?虽然其他SharePoint服务器场设置都是保存到了配置数据库里面,但连接配置数据库本身的连接字符串,肯定是 ...
巡逻机器人（BFS）
巡逻机器人问题(F - BFS,推荐) Description A robot has to patrol around a rectangular area which is in a form ...
How to search a table in a store proc and open the store proc
1. select*fromdba_dependencieswherereferenced_name='CNTL_ISSUE'andTYPE='PROCEDURE' 2. selecttextfrom ...
linux常用脚本
转载于http://justcoding.iteye.com/blog/1943504 我们在运维中,尤其是linux运维,都知道脚本的重要性,脚本会让我们的运维事半功倍,所以学会写脚本是我们每个l ...
About Why Inline Member Function Should Defined in The Header File
About why inline member function should defined in the header file. It is legal to specify inline on ...
Java开发笔记（五十五）关键字static的用法
前面介绍嵌套类的时候讲到了关键字static,用static修饰类,该类就变成了嵌套类.从嵌套类的用法可知,其它地方访问嵌套类之时,无需动态创建外层类的实例,直接创建嵌套类的实例就行.其实static ...
JavaScript实现抽象类与虚方法（六）
一:什么是js抽象类与虚方法虚函数是类成员中的概念,是只做了一个声明而未实现的方法,具有虚函数的类就称之为抽象类,这些虚函数在派生类中才被实现.抽象类是不能实例化的,因为其中的虚函数并不是一个完整的 ...