潭州课堂25班:Ph201805201 爬虫高级 第二课 sclapy 框架 (课堂笔记)

时间:2021-12-24 00:35:20

win 下安装 sclapy

先安装 pip install wheel

py 库下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

在这个网址中下载  Scrapy  和  twisted ,pywin32

下载  twisted,在其所在文件夹十打开  cmd , pip install  安装 ,之后安装 Scrapy,

用这行命令

scrapy startproject pyjy

测试是否成功,如果 成功 在  C:\Users\Administrator\data  下将有新项目

潭州课堂25班:Ph201805201 爬虫高级 第二课 sclapy  框架 (课堂笔记)

潭州课堂25班:Ph201805201 爬虫高级 第二课 sclapy  框架 (课堂笔记)

潭州课堂25班:Ph201805201 爬虫高级 第二课 sclapy  框架 (课堂笔记)

创建 spiders 文件,:打开该文件夹,在该文件夹下打开cmd,

输入 scrapy genspider example example.com

潭州课堂25班:Ph201805201 爬虫高级 第二课 sclapy  框架 (课堂笔记)

此时可以看到多了个 py 文件

查看可执行文件: scrapy list

潭州课堂25班:Ph201805201 爬虫高级 第二课 sclapy  框架 (课堂笔记)

运行命令: scrapy crawl example

robots协议

当 parse 方法没有运行,

潭州课堂25班:Ph201805201 爬虫高级 第二课 sclapy  框架 (课堂笔记)

潭州课堂25班:Ph201805201 爬虫高级 第二课 sclapy  框架 (课堂笔记)

修改头文件

潭州课堂25班:Ph201805201 爬虫高级 第二课 sclapy  框架 (课堂笔记)

豆瓣数据

潭州课堂25班:Ph201805201 爬虫高级 第二课 sclapy  框架 (课堂笔记)

潭州课堂25班:Ph201805201 爬虫高级 第二课 sclapy  框架 (课堂笔记)

潭州课堂25班:Ph201805201 爬虫高级 第二课 sclapy  框架 (课堂笔记)

潭州课堂25班:Ph201805201 爬虫高级 第二课 sclapy  框架 (课堂笔记)

潭州课堂25班:Ph201805201 爬虫高级 第二课 sclapy  框架 (课堂笔记)

潭州课堂25班:Ph201805201 爬虫高级 第二课 sclapy  框架 (课堂笔记)

潭州课堂25班:Ph201805201 爬虫高级 第二课 sclapy 框架 (课堂笔记)的更多相关文章

  1. 潭州课堂25班:Ph201805201 爬虫高级 第一课 pyspider框架 (课堂笔记)

    利用wheel安装 S1: pip install wheelS2: 进入www.lfd.uci.edu/~gohlke/pythonlibs/,Ctrl + F查找pycurl 这个包名是pycur ...

  2. 潭州课堂25班:Ph201805201 爬虫高级 第九课 scrapyd 部署 (课堂笔记)

    c rapyd是 scrapy 的部署, 是官方提供的一个爬虫管理工具, 通过他可以非常方便的上传控制爬虫的运行, 安装 : pip install scapyd 他提供了一个json ,web, s ...

  3. 潭州课堂25班:Ph201805201 爬虫基础 第九课 图像处理- PIL (课堂笔记)

    Python图像处理-Pillow 简介 Python传统的图像处理库PIL(Python Imaging Library ),可以说基本上是Python处理图像的标准库,功能强大,使用简单. 但是由 ...

  4. 潭州课堂25班:Ph201805201 爬虫基础 第二课 fidder (课堂笔记)

    通过浏览器访问百度的详细过程? 一.通过dns获取百度IP地址.二.通过百度IP访问百度服务器, 三,返回数据. 四,通过渲染显示内容, fidder设置 tf 信任证书

  5. 潭州课堂25班:Ph201805201 django 项目 第二课 git 版本控制 (课堂笔记)

    安装 git sudo apt-get install git 查看版本信息: git --version 演示: 创建个项目 创建文件夹 如果要对这个文件夹进行版本控制 先进到这个文件夹中, 命令查 ...

  6. 潭州学院-JavaVIP的Javascript的高级进阶-KeKe老师

    潭州学院-JavaVIP的Javascript的高级进阶-KeKe老师 讲的不错,可以学习 下面是教程的目录截图: 下载地址:http://www.fu83.cn/thread-283-1-1.htm ...

  7. 潭州课堂25班:Ph201805201 WEB 之 页面编写 第四课 登录注册 (课堂笔记)

    index.html 首页 <!DOCTYPE html> <html lang="en"> <head> <meta charset=& ...

  8. 潭州课堂25班:Ph201805201 WEB 之 页面编写 第三课 &lpar;课堂笔记&rpar;

    index.html <!DOCTYPE html> <html lang="en"> <head> <meta charset=&quo ...

  9. 潭州课堂25班:Ph201805201 WEB 之 页面编写 第二课 &lpar;课堂笔记&rpar;

    index.html <!DOCTYPE html> <html lang="en"> <head> <meta charset=&quo ...

随机推荐

  1. 创建文本注记TextElement

    1.创建一个字体 /// <summary> /// 字体设置 /// </summary> /// <param name="size">Th ...

  2. 提高Objective-C代码质量心机一&colon;简化写法

    提高OC代码质量的小心机 一.OC特性 OC 为 C 语言添加了面向对象特性,是其超集; OC 使用动态绑定的消息结构,也就是,在运行时才会检查对象类型; 接收一条消息后,究竟应执行何种代码,由运行期 ...

  3. VC&plus;&plus;打开对话框选择一个文件夹路径 BROWSEINFO结构

    typedef struct _browseinfoW { HWND hwndOwner; PCIDLIST_ABSOLUTE pidlRoot; LPWSTR pszDisplayName; // ...

  4. leetcode面试准备&colon;Multiply Strings

    1 题目 Given two numbers represented as strings, return multiplication of the numbers as a string. Not ...

  5. &lbrack;算法&rsqb;分治算法&lpar;Divide and Conquer&rpar;

    转载请注明:http://www.cnblogs.com/StartoverX/p/4575744.html 分治算法 在计算机科学中,分治法是建基于多项分支递归的一种很重要的算法范式.字面上的解释是 ...

  6. ESP8266莫名重启或者死机问题

    多半是内存使用不当 1. 如果你要用很大长度的数组,那么可以换用更小的数据类型.比如,int值要占用两个字节,你可以用byte(只占用一个字节)代替:    2. esp8266有时会莫明重启,大部分 ...

  7. Linux&lpar;1&rpar;-卸载挂载分区

    > df -lh > fuser -m -v /dev/mapper/autovg-autolv > fuser -m -k -v /dev/mapper/autovg-autolv ...

  8. 论文笔记:Batch Normalization

    在神经网络的训练过程中,总会遇到一个很蛋疼的问题:梯度消失/爆炸.关于这个问题的根源,我在上一篇文章的读书笔记里也稍微提了一下.原因之一在于我们的输入数据(网络中任意层的输入)分布在激活函数收敛的区域 ...

  9. 第13章 GPIO—位带操作

    第13章     GPIO—位带操作 全套200集视频教程和1000页PDF教程请到秉火论坛下载:www.firebbs.cn 野火视频教程优酷观看网址:http://i.youku.com/fire ...

  10. 《网路对抗》Exp8 WEB基础实践

    20155336<网路对抗>Exp8 WEB基础实践 一.基础问题回答 1.什么是表单 表单是一个包含表单元素的区域,表单元素是允许用户在表单中(比如:文本域.下拉列表.单选框.复选框等等 ...