[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息

2018-07-21 23:53:02 larger5 阅读数 4123更多

分类专栏：网络爬虫

本文链接：https://blog.csdn.net/larger5/article/details/81150647

一、前言

之前使用原生的 Python 库去爬取网页信息，经常要使用正则表达式，笔者记性不是很好，经常经常忘记相关符号及其作用。
后来使用著名的 Scrapy 框架去爬取信息，感觉太笨重了，特别是一个项目开发到一半，要引入爬虫功能，再使用 Scrapy，就不是那么友好了，其本身就是一个 Web Project。

近来使用一个和之前 Java 爬虫特别简单好使的 Jsoup 框架极其类似的 Beautiful Soup

[Java爬虫] 使用 Jsoup+HttpClient 爬取网站基本信息

引入也很简单：

# Python 2+

pip install beautifulsoup4

# Python 3+

pip3 install beautifulsoup4

使用 Python 爬虫体验当然是比 Java 要好，java开发有点 “做作” —— 每一步都极其格式化（面向对象），Python 则运用自如。

二、需求

现在要爬取 CSDN首页的今日推荐的文章 标题 及其 链接，

2.1.这是网页目标内容

[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息

2.2.这是网页目标内容对应的源码

[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息

三、实践

你猜需要多少行代码，没错，就这几行，就是这么牛逼。
因力求精简，笔者为此费了几个小时通读官方 API 文档数遍。

3.1.代码

from bs4 import BeautifulSoup

from urllib.request import urlopen

html = urlopen("https://www.csdn.net/").read().decode('utf-8')

soup = BeautifulSoup(html,"html.parser")

titles=soup.select("h3[class='company_name'] a") # CSS 选择器

for title in titles:

    print(title.get_text(),title.get('href'))# 标签体、标签属性

3.2.效果

[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息

四、小结

参考文献：
Beautiful Soup 中文文档

[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息的更多相关文章

python爬虫之Beautiful Soup基础知识+实例
python爬虫之Beautiful Soup基础知识 Beautiful Soup是一个可以从HTML或XML文件中提取数据的python库.它能通过你喜欢的转换器实现惯用的文档导航,查找,修改文档 ...
Python爬虫之Beautiful Soup解析库的使用（五）
Python爬虫之Beautiful Soup解析库的使用 Beautiful Soup-介绍 Python第三方库,用于从HTML或XML中提取数据官方:http://www.crummv.com/ ...
python 爬虫利器 Beautiful Soup
python 爬虫利器 Beautiful Soup Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文 ...
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(人人网)（下）
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(下) 自动使用cookie的方法,告别手动拷贝cookie http模块包含一些关于cookie的模块,通过他们我们可以自动的使用co ...
Python爬虫库-Beautiful Soup的使用
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库,简单来说,它能将HTML的标签文件解析成树形结构,然后方便地获取到指定标签的对应属性. 如在上一篇文章通过爬虫 ...
python爬虫之Beautiful Soup的基本使用
1.简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索 ...
python标准库Beautiful Soup与MongoDb爬喜马拉雅电台的总结
Beautiful Soup标准库是一个可以从HTML/XML文件中提取数据的Python库,它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式,Beautiful Soup将会节省数小 ...
python 爬虫5 Beautiful Soup的用法
1.创建 Beautiful Soup 对象 from bs4 import BeautifulSoup html = """ <html><head& ...
Python爬虫实战（2）：爬取京东商品列表
1,引言在上一篇<Python爬虫实战:爬取Drupal论坛帖子列表>,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容.相反 ...

随机推荐

Java内存泄露及性能调优实例
内存泄漏及解决方法 1)系统崩溃前的一些现象每次垃圾回收的时间越来越长,由之前的10ms延长到50ms左右,FullGC的时间也有之前的0.5s延长到4.5s:FullGC的次数越来越多,最频繁时隔 ...
WPF之资源字典zz
最近在看wpf相关东西,虽然有过两年的wpf方面的开发经验,但是当时开发的时候,许多东西一知半解,至今都是模模糊糊,框架基本是别人搭建,自己也就照着模板写写,现在许多东西慢慢的理解了,回顾以前的若干记 ...
as3&period;0 interface接口使用方法
[转]as3.0 interface接口使用方法 AS在2.0的时候就支持接口了接口能够让你的程序更具扩展性和灵活性,打个例如比方你定义了一个方法代码: public function aMet ...
Spark小课堂Week2 Hello Streaming
Spark小课堂Week2 Hello Streaming 我们是怎么进行数据处理的? 批量方式处理目前最常采用的是批量方式处理,指非工作时间运行,定时或者事件触发.这种方式的好处是逻辑简单,不影响 ...
Qt 经典出错信息之”Basic XLib functionality test failed&excl;”(Z&period;&period;z&period;&period;)
此完整出错信息是在./configure阶段 Basic XLib functionality test failed! You might need to modify the include an ...
九度OJ 1452 搬寝室 -- 动态规划
题目地址:http://ac.jobdu.com/problem.php?pid=1452 题目描述: 搬寝室是很累的,xhd深有体会.时间追述2006年7月9号,那天xhd迫于无奈要从27号楼搬到3 ...
struts2错误：The Struts dispatcher cannot be found&period;
struts2错误:The Struts dispatcher cannot be found. The Struts dispatcher cannot be found. This is usua ...
js&lowbar;DOM属性
.nodeType==1,指的是li, .nodeType==3,则指的文本节点. .children属性,和 .childNodes属性类似,但是只会包含元素节点,而不会包含文本节点. .child ...
微软最牛MS08-067漏洞各系统补丁下载地址
本次MS08-067严重漏洞各系统补丁地址例如以下: 中文操作系统KB958644补丁下载地址: Windows Vista 安全更新程序 (KB958644) http://download.mic ...
Chapter 21&lowbar;4 捕获
捕获功能在很多地方都在使用,就是从目标字符串中抽出匹配于该模式的内容,在指定捕获时,应将模式中需要捕获的部分写到一对圆括号内. 对于具有捕获的模式,函数match会将所有捕获到的值作为单独的结果返回. ...