Beautiful Soup是一个Python的一个库,主要为一些短周期项目比如屏幕抓取而设计。有三个特性使得它非常强大:
1.Beautiful Soup提供了一些简单的方法和Python术语,用于检索和修改语法树:一个用于解析文档并提取相关信息的工具包。这样你写一个应用不需要写很多代码。
2.Beautiful Soup自动将输入文档转换为Unicode编码,并将输出文档转化为UTF-8编码。你不需要考虑编码,除非输入文档没有指出其编码并且Beautiful Soup无法自动检测到,这时你需要指出原来的编码方式。
Beautiful Soup解析你提哦那个的任何东西,并且替你完成树的便利。你可以告诉它“查找所有的链接” 或者“查找类externalLink的所有链接”或者“查找所有url地址匹配foo.com的链接”或者“查找使用粗体的表头,返回那些粗体的文本”。
1、先安装pip
wget https://pypi.python.org/packages/source/p/pip/pip-1.5.6.tar.gz tar zxvf pip-1.5.6.tar.gz cd pip-1.5.6 python setup.py install
2、安装Beautifulsoup
pip install beautifulsoup4
或者
sudo pip install BeautifulSoup4