下文中“:”后面安装的安装语句需要打开 cmd (命令提示符),在 cmd 中输入。
示例:
在搜索框输入 cmd,单机命令提示符:
然后输入安装语句,按回车键:
因为我之前已经装过了,所以这里显示的是已经安装成功过,没安装过的下面会显示安装过程,最后看到安装成功的英文就是成功安装了。
1. 请求库的安装
- requests 是基于urllib3的一个用于发起http请求的库,这个库相较于urllib更快,更易用。
pip install requests
- selenium 是一个自动化测试工具,利用他我们可以驱动浏览器执行特定的动作。
pip install selenium
- aiohttp 是提供异步Web服务的库。
pip install aiohttp
2. 解析库的安装
- lxml 支持 HTML 和 XML 的解析,支持 XPath 解析方式,而且解析效率非常高。
pip install lxml
- Beautiful Soup 是 Python 的一个 HTML 和 XML 的解析库,我们可以用它来方便地从网页中提取数据。它还拥有强大的 API 和多样的解析方式。不够 Beautiful Soup 的 HTML 和 XML 解析器是依赖于 lxml 库的,所以在此之前必须先安装 lxml 库。
pip install beautifulsoup4
- pyquery 是一个强大的网页解析器,提供了和 jQuery 类似的语法来解析 HTML 文档,支持 CSS 选择器,使用非常方便。
pip install pyquery
3. 存储库的安装
- pymongo 用来与 MongoDB 进行交互。
pip install pymongo
- pymysql 用来将数据存储到 MySQL 中。
pip install pymysql
- redis-py 用来与 Redis 进行交互
pip install redis
- redisdump 用于 Redis 数据的导入和导出的工具,是基于 Ruby 实现的,所以在此之前要先安装 Ruby。
pip install redis-dump
4. Web库的安装
- flask 是一个轻量级的 Web 服务程序,简单、易用、灵活,这里主要用来做一些 API 服务。
pip install flask
- tornado 是一个支持异步的框架,通过使用非阻塞 I/O 流,它可以支撑成千上万的开放连接,效率非常高。
pip install tornado
5. 爬虫框架的安装
- pyspider 是强大网络爬虫框架,带有强大的 WebUI 、脚本编译器、任务监控器、项目管理器以及结果处理器,同时支持多种数据库后端、多种消息列表,另外还支持 JavaScript 渲染页面的爬取,使用起来很方便。
pip install pyspider