本文可快速搭建爬虫环境,并实现简单页面解析
1、安装 python
下载地址:https://www.python.org/downloads/
选择对应版本,常用版本有2.7、3.4
安装后,将安装目录加入到环境变量path中,可在dos窗口查看版本,以检查是否安装正常
python -V
2、安装 pip
pip是python包管理工具,该工具提供了对Python 包的查找、下载、安装、卸载的功能
目前如果你在 python.org 下载最新版本的安装包,则是已经自带了该工具。
Python 2.7.9 + 或 Python 3.4+ 以上版本都自带 pip 工具。
下载地址:https://pypi.org/project/pip/#files ,
你可以通过以下命令来判断是否已安装:
pip --version
选择对应版本,下载后解压,在文件目录执行安装命令:
python setup.py install
3、安装 BeautifulSoup
执行命令:
pip install beautifulsoup4
4、代码
#-*- coding:utf-8 -*-
import urllib2
import urllib
from bs4 import BeautifulSoup #设置字符编码格式
import sys
reload(sys)
sys.setdefaultencoding('utf8') #打开保存结果的txt
txtfile = open('data.txt','w') #请求网页
url = "www.baidu.com"
html=urllib2.urlopen(url).read() #解析网页和数据
soup = BeautifulSoup(html, "html.parser")
html_name = soup.findAll(attrs={"class":"f_l zi"})
html_five = soup.findAll(attrs={"class":"co_666"})
surname = html_name[0].text #保存结果
txtfile.write(surname )
一个简单的爬虫就完成了,欢迎留言交流