[Python爬虫] 在Windows下安装PIP+Phantomjs+Selenium

时间:2022-09-26 15:04:12

最近准备深入学习Python相关的爬虫知识了,如果说在使用Python爬取相对正规的网页使用"urllib2 + BeautifulSoup + 正则表达式"就能搞定的话;那么动态生成的信息页面,如Ajax、JavaScript等就需要通过"Phantomjs + CasperJS + Selenium"来实现了。所以先从安装和功能介绍入门,后面在介绍一些Python相关的爬虫应用。

一. 介绍

PhantomJS
        PhantomJS是一个服务器端的 JavaScript API 的WebKit(开源的浏览器引擎)。其支持各种Web标准: DOM 处理, CSS 选择器, JSON, Canvas 和 SVG。PhantomJS可以用于页面自动化,网络监测,网页截屏,以及*面测试等。
        Selenium
        Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7、8、9)、Mozilla Firefox、Mozilla Suite等。这个工具的主要功能包括:测试与浏览器的兼容性、测试系统功能,它ThoughtWorks专门为Web应用程序编写的一个验收测试工具。
        PIP
        在介绍介绍它们之前,需要安装PIP软件。正如xifeijian大神所说:“作为Python爱好者,如果不知道easy_install或者pip中的任何一个的话,那么......”。
        easy_insall的作用和perl中的cpan,ruby中的gem类似,都提供了在线一键安装模块的傻瓜方便方式,而pip是easy_install的改进版,提供更好的提示信息,删除package等功能。老版本的python中只有easy_install,没有pip。常见的具体用法如下:

easy_install的用法:
1) 安装一个包
$ easy_install <package_name>
$ easy_install "<package_name>==<version>"
2) 升级一个包
$ easy_install -U "<package_name>>=<version>" pip的用法
1) 安装一个包
$ pip install <package_name>
$ pip install <package_name>==<version>
2) 升级一个包 (如果不提供version号,升级到最新版本)
$ pip install --upgrade <package_name>>=<version>
3)删除一个包
$ pip uninstall <package_name>

二. 安装PIP

第一步:下载PIP软件
        可以在官网http://pypi.python.org/pypi/pip#downloads下载,同时cd切换到PIP目录,在通过python setup.py install安装。而我采用的是下载pip-Win_1.7.exe进行安装,下载地址如下:
        https://sites.google.com/site/pydatalog/python/pip-for-windows
        第二步:安装PIP软件

[Python爬虫] 在Windows下安装PIP+Phantomjs+Selenium

[Python爬虫] 在Windows下安装PIP+Phantomjs+Selenium

        当提示"pip and virtualenv installed"表示安装成功,那怎么测试PIP安装成功呢?
        第三步:配置环境变量
        此时在cmd中输入pip指令会提示错误“不是内部或外部命令”。
[Python爬虫] 在Windows下安装PIP+Phantomjs+Selenium

所以需要添加path环境变量。PIP安装完成后,会在Python安装目录下添加python\Scripts目录,即在python安装目录的Scripts目录下,将此目录加入环境变量中即可!过程如下:

[Python爬虫] 在Windows下安装PIP+Phantomjs+Selenium
[Python爬虫] 在Windows下安装PIP+Phantomjs+Selenium
        第四步:使用PIP命令
        下面在CMD中使用PIP命令,“pip list outdate”列举Python安装库的版本信息。
[Python爬虫] 在Windows下安装PIP+Phantomjs+Selenium
        PIP常用的命令如下所示: (参考pip安装使用详解)
 Usage:
pip <command> [options] Commands:
install 安装软件.
uninstall 卸载软件.
freeze 按着一定格式输出已安装软件列表
list 列出已安装软件.
show 显示软件详细信息.
search 搜索软件,类似yum里的search.
wheel Build wheels from your requirements.
zip 不推荐. Zip individual packages.
unzip 不推荐. Unzip individual packages.
bundle 不推荐. Create pybundles.
help 当前帮助. General Options:
-h, --help 显示帮助.
-v, --verbose 更多的输出,最多可以使用3次
-V, --version 现实版本信息然后退出.
-q, --quiet 最少的输出.
--log-file <path> 覆盖的方式记录verbose错误日志,默认文件:/root/.pip/pip.log
--log <path> 不覆盖记录verbose输出的日志.
--proxy <proxy> Specify a proxy in the form [user:passwd@]proxy.server:port.
--timeout <sec> 连接超时时间 (默认15秒).
--exists-action <action> 默认活动当一个路径总是存在: (s)witch, (i)gnore, (w)ipe, (b)ackup.
--cert <path> 证书.

三. 安装Phantomjs+Selenium

通过pip命令安装Selenium:

[Python爬虫] 在Windows下安装PIP+Phantomjs+Selenium

[Python爬虫] 在Windows下安装PIP+Phantomjs+Selenium

        官网http://phantomjs.org/下载PhantomJS解压后如下图所示:
[Python爬虫] 在Windows下安装PIP+Phantomjs+Selenium
        调用时可能会报错“Unable to start phantomjs with ghostdriver”如图:
[Python爬虫] 在Windows下安装PIP+Phantomjs+Selenium
        此时可以设置下Phantomjs的路径,同时如果你配置了Scripts目录环境变量,可以解压Phantomjs到该文件夹下。
        参考:Selenium with GhostDriver in Python on Windows - *

四. 测试代码

        设置executable_path路径后的代码如下:
 from selenium import webdriver
driver = webdriver.PhantomJS(executable_path="F:\Python\phantomjs-1.9.1-windows\phantomjs.exe")
driver.get("http://www.baidu.com")
data = driver.title
print data

运行结果如下图所示:

[Python爬虫] 在Windows下安装PIP+Phantomjs+Selenium
        获取"百度一下,你就知道",对应HTML源码:
        <title>百度一下,你就知道</title>
        但是总会弹出PhantomJS的黑框,怎么办呢?同时如何通过Python直接调用Phantomjs运行JS呢?
        同时下面的代码可以进行截图:
 from selenium import webdriver
driver=webdriver.PhantomJS(executable_path="F:\Python\phantomjs-1.9.1-windows\phantomjs.exe")
driver.get("http://www.csdn.net")
data = driver.title
driver.save_screenshot('csdn.png')
print data

输出如下图所示,图片太长仅仅部分:

>>>
CSDN.NET - 全球最大中文IT社区,为IT专业技术人员提供最全面的信息传播和服务平台
>>>
[Python爬虫] 在Windows下安装PIP+Phantomjs+Selenium

PS:我准备使用C#调用PhantomJS.exe完成页面截图功能,但是没有成功,而且使用WebBrowser中DrawToBitmap函数获取图片,由于ActiveX 控件不支持DrawToBitmap方法,获取总是空白的,各种问题。

[Python爬虫] 在Windows下安装PIP+Phantomjs+Selenium

参考资料:
        数据抓取的艺术(一):Selenium+Phantomjs数据抓取环境配置(强推)
        数据抓取的艺术(二):数据抓取程序优化
        Python使用Selenium/PhantomJS(强推)
        Python selenium的js扩展实现
        使用python+phantomjs抓取动态页面
        用phantomjs 进行网页整页截屏
        Selenium-webdriver系列教程(15)——万能的截图(强推)
        pyspider 爬虫教程(三):使用 PhantomJS 渲染带 JS 的页面
       【PHP】【.NET】【JS】【AJAX】关于抓取网页源代码的问题
        使用python/casperjs编写终极爬虫-客户端App的抓取
        Python 爬虫如何获取 JS 生成的 URL 和网页内容-知乎
        通过 WebBrowser 获取网页截图 - C#
        Control.DrawToBitmap 方法不支持Ajax - 官网
        IE浏览器整页截屏程序(二) - C#
        C# 网络编程之最简单浏览器实现 - 自己

最后希望该篇基础性文章对你有所帮助吧!如果有不足之处,还请海涵~
      (By:Eastmount 2015-8-19 晚上8点   http://blog.csdn.net/eastmount/

[Python爬虫] 在Windows下安装PIP+Phantomjs+Selenium的更多相关文章

  1. &lbrack;Python爬虫&rsqb; 在Windows下安装PhantomJS和CasperJS及入门介绍&lpar;上&rpar;

    最近在使用Python爬取网页内容时,总是遇到JS临时加载.动态获取网页信息的困难.例如爬取CSDN下载资源评论.搜狐图片中的“原图”等,此时尝试学习Phantomjs和CasperJS来解决这个问题 ...

  2. windows下安装pip和easy&lowbar;install

    1. 从这里下载 get-pip.py: https://raw.githubusercontent.com/pypa/pip/master/contrib/get-pip.py 2. python ...

  3. python windows下安装pip及rarfile

    python之所以被广泛使用,倒不见得是本身语法简单,而是而nodejs/javascript一样把三方库的依赖管理简化了,而不用和java一样非得通过maven管理,而且还得打包后在classpat ...

  4. Windows下安装pip&lpar;转自http&colon;&sol;&sol;www&period;cnblogs&period;com&sol;yuanzm&sol;p&sol;4089856&period;html)

    windows下面安装Python和pip终极教程 在大二的时候接触过一段时间的Python,最近又开始玩起了这门语言.总的来说,个人很喜欢Python的语言风格,但是这门语言对于windows并不算 ...

  5. python笔记:windows 下安装 python lxml

    原文:http://blog.csdn.net/zhaokuo719/article/details/8209496 windows 环境下安装 lxml python 1.首先保证你的python ...

  6. windows下安装pip

    1.在安装pip前,请确认win系统中已经安装好了python,和easy_install工具,如果系统安装成功,easy_install在目录C:\Python27\Scripts 下面,确认截图如 ...

  7. 在windows下安装pip scrapy&period;&period;&period;

    将 C:\Users\用户名\AppData\Local\Programs\Python\Python35\Scripts C:\Users\用户名\AppData\Local\Programs\Py ...

  8. windows下安装pip教程

    下载地址是:https://pypi.python.org/pypi/pip#downloads 下载完成之后,解压到一个文件夹,用CMD控制台进入解压目录,输入: python setup.py i ...

  9. linux和windows下安装python拓展包及requirement&period;txt安装类库

    python拓展包安装 直接安装拓展包默认路径: Unix(Linux)默认路径:/usr/local/lib/pythonX.Y/site-packagesWindows默认路径:C:\Python ...

随机推荐

  1. win7 64位4GB内存下 tomcat7扩大内存

    新部署的scm项目运行第二天报: Could not retrieve transation read-only status server 无法获取事务只读状态服务器 登录界面输入正确账号密码登录后 ...

  2. java中paint方法和paintComponent方法的不同

    /* 1.由Component.java源代码中可以看见其中的paint()方法体是空的,在Container中重写了该方法,其子类Window等也重写了该方法 2.由JComponent.java源 ...

  3. 百度地图刷新显示不完整?(应该是和div顺序有关系)

    解决方案:1异步加载(jquery(function(){loadJScript():}))   2解析加载设置了个延迟(setTimeOut(getInit,1000))

  4. UML建模之活动图介绍(Activity Diagram)

      一.活动图的组成元素 Activity Diagram Element 1.活动状态图(Activity) 2.动作状态(Actions) 3.动作状态约束(Action Constraints) ...

  5. Javascript多线程引擎&lpar;六&rpar;

    Javascript多线程引擎(六) 经过三个月的时间, Javascript 引擎已经完成beta版本(还不支持多线程特性, 预计下个星期就可以支持了, 现阶段还在进行测试基本JS单元功能), 并且 ...

  6. python&plus;sublime text 2 中文乱码问题的解决方法&lbrack;Decode error - output not utf-8&rsqb;

    打开sublime的preferences--browse packages找到python文件夹中的Python.sublime-build文件,把它拖到sublime里打开.在最后一行加入&quo ...

  7. Jquery的AJAX应用详解

    案例一:取得服务端当前时间 简单形式:jQuery对象.load(url),返回结果自动添加到jQuery对象代表的标签中间 <body> 当前时间: <span id=" ...

  8. Json转model对象,model转json&comma;解析json字符串

    GitHub链接: https://github.com/mozhenhau/D3Json D3Json 通过swift的反射特性,把json数据转换为model对象,本类最主要是解决了其他一般jso ...

  9. VS Code常用快捷键大全

    常用 General 按 Press 功能 Function Ctrl + Shift + P,F1 显示命令面板 Show Command Palette Ctrl + P 快速打开 Quick O ...

  10. 20 常用模块 hashlib hmac&colon;加密 xml xlrd xlwt&colon;excel读&vert;写 configparser subprocess

    hashlib模块:加密 加密: 1.有解密的加密方式 2.无解密的加密方式:碰撞检查 hashlib -- 1)不同数据加密后的结果一定不一致 -- 2)相同数据的加密结果一定是一致的 import ...