python简单页面爬虫入门 BeautifulSoup实现

时间:2020-12-08 15:37:55

本文可快速搭建爬虫环境,并实现简单页面解析

1、安装 python

下载地址:https://www.python.org/downloads/

选择对应版本,常用版本有2.7、3.4

安装后,将安装目录加入到环境变量path中,可在dos窗口查看版本,以检查是否安装正常

python -V

2、安装 pip

pip是python包管理工具,该工具提供了对Python 包的查找、下载、安装、卸载的功能

目前如果你在 python.org 下载最新版本的安装包,则是已经自带了该工具。

Python 2.7.9 + 或 Python 3.4+ 以上版本都自带 pip 工具。

下载地址:https://pypi.org/project/pip/#files

你可以通过以下命令来判断是否已安装:

pip --version

选择对应版本,下载后解压,在文件目录执行安装命令:

python setup.py install

3、安装 BeautifulSoup

执行命令:

pip install beautifulsoup4

4、代码

#-*- coding:utf-8 -*-
import urllib2
import urllib
from bs4 import BeautifulSoup #设置字符编码格式
import sys
reload(sys)
sys.setdefaultencoding('utf8') #打开保存结果的txt
txtfile = open('data.txt','w') #请求网页
url = "www.baidu.com"
html=urllib2.urlopen(url).read() #解析网页和数据
soup = BeautifulSoup(html, "html.parser")
html_name = soup.findAll(attrs={"class":"f_l zi"})
html_five = soup.findAll(attrs={"class":"co_666"})
surname = html_name[0].text #保存结果
txtfile.write(surname )

一个简单的爬虫就完成了,欢迎留言交流