Scrapy框架实现爬虫

实战中的遇到的问题总结：

1. Scrapy框架实现爬虫

解决方法：

只需要在print前面加tab键就可以了，即：后面需要缩进。

Scrapy框架实现爬虫

2.在win7下运行response.xpath报错的解决方法

Scrapy框架实现爬虫

解决方法：

将‘’单引号改成双引号“”

Scrapy框架实现爬虫

问题解决

3.在win7中的scrapy shell中使用变量调试

Scrapy框架实现爬虫

去除换行符：

Scrapy框架实现爬虫

去除空格：

Scrapy框架实现爬虫

查看变量datas

Scrapy框架实现爬虫

此时我们打印一下列表中的每一项看看

Scrapy框架实现爬虫

4.在win7下执行scrapy shell http://192.168.11.85:5000/search?keywords=&content_search_by=by_bugs

Scrapy框架实现爬虫

发现参数丢失：

解决方法：

scrapy shell "http://192.168.11.85:5000/search?keywords=&content_search_by=by_bugs" 用双引号括起来

Scrapy框架实现爬虫

5.在运行scrapy项目过程中SyntaxError: Non-ASCII character '\xe5' in file F:\codebyjeffrey\PYTEST\tet1.py on line 5, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

解决方法：源代码文件第一行添加：#coding:utf-8，这样就可以避免了。
错误主要是由于python2的编码默认是ASCII，你的文件里有中文就必须要用utf-8编码，只要在文件需要在文件开头标注

6.在运行scrapy crawl books的过程中提示IndentationError: unexpected indent

解决办法：

python是一种对缩进非常敏感的语言，最常见的情况是tab和空格的混用会导致错误，或者缩进不对，而这是用肉眼无法分别的。

【问题】
一个python脚本，本来都运行好好的，然后写了几行代码，而且也都确保每行都对齐了，但是运行的时候，却出现语法错误：
IndentationError: unindent does not match any outer indentation level

【解决过程】
1.对于此错误，最常见的原因是，的确没有对齐。但是我根据错误提示的行数，去代码中看了下，没啥问题啊。
都是用TAB键，对齐好了的，没有不对齐的行数啊。
2.以为是前面的注释的内容影响后面的语句的语法了，所以把前面的注释也删除了。
结果还是此语法错误。
3.后来折腾了半天，突然想到了，把当前python脚本的所有字符都显示出来看看有没有啥特殊的字符。

问题现象：

Scrapy框架实现爬虫

Notepad++，好像有个设置，可以显示所有的字符的。
找到了，在：
视图 -> 显示符号 -> 显示空格与制表符

Scrapy框架实现爬虫

说明确实存在制表符或者tab键

删除制表符或者tab键即可解决问题

Scrapy框架实现爬虫

http://www.crifan.com/python_syntax_error_indentationerror/comment-page-1/

http://www.crifan.com/tutorial_python_indent/

Scrapy框架实现爬虫的更多相关文章

一个scrapy框架的爬虫(爬取京东图书)
我们的这个爬虫设计来爬取京东图书(jd.com). scrapy框架相信大家比较了解了.里面有很多复杂的机制,超出本文的范围. 1.爬虫spider tips: 1.xpath的语法比较坑,但是你可以 ...
关于使用scrapy框架编写爬虫以及Ajax动态加载问题、反爬问题解决方案
Python爬虫总结总的来说,Python爬虫所做的事情分为两个部分,1:将网页的内容全部抓取下来,2:对抓取到的内容和进行解析,得到我们需要的信息. 目前公认比较好用的爬虫框架为Scrapy,而且 ...
利用scrapy框架进行爬虫
今天一个网友问爬虫知识,自己把许多小细节都忘了,很惭愧,所以这里写一下大概的步骤,主要是自己巩固一下知识,顺便复习一下.(scrapy框架有一个好处,就是可以爬取https的内容) [爬取的是杨子晚报 ...
Scrapy 框架，爬虫文件相关
Spiders 介绍由一系列定义了一个网址或一组网址类如何被爬取的类组成具体包括如何执行爬取任务并且如何从页面中提取结构化的数据. 简单来说就是帮助你爬取数据的地方内部行为 #1.生成初始的Re ...
群辉6&period;1&period;7安装scrapy框架执行爬虫
只针对会linux命令,会python的伙伴, 使用环境为: 群辉ds3615xs 6.1.7 python3.5 最近使用scrapy开发了一个小爬虫,因为很穷没有服务器可已部署. 所以打起了我那台 ...
09 Scrapy框架在爬虫中的使用
一.简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架.它集成高性能异步下载,队列,分布式,解析,持久化等. Scrapy 是基于twisted框架开发而来,twisted是一个 ...
基于scrapy框架的爬虫
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. scrapy 框架高性能的网络请求高性能的数据解析高性能的 ...
基于scrapy框架的爬虫基本步骤
本文以爬取网站代码的边城为例 1.安装scrapy框架详细教程可以查看本站文章点击跳转 2.新建scrapy项目生成一个爬虫文件.在指定的目录打开cmd.exe文件,输入代码 scrapy ...
零基础写python爬虫之使用Scrapy框架编写爬虫
网络爬虫,是在网上进行数据抓取的程序,使用它能够抓取特定网页的HTML数据.虽然我们利用一些库开发一个爬虫程序,但是使用框架可以大大提高效率,缩短开发时间.Scrapy是一个使用Python编写的,轻 ...
Scrapy 框架分布式爬虫
分布式爬虫 scrapy-redis 实现原生scrapy 无法实现分布式调度器和管道无法被分布式机群共享环境安装 - pip install scrapy_redis 导包:from sc ...

随机推荐

http请求相关
1.POST方式向服务器发送AJAX请求时设置请求头 application/x-www-form-urlencoded 2.表单上传文件时设置请求头 multipart/form-d ...
忙了好一阵，今天随便写篇关于canvas的小东西
前几天在朋友圈发了几条3D demo视频,其中就有3D空间组成各种图形.如上! 那么这些图形的每个mesh的坐标可不是手动去写,如果你愿意我当然不拦着!所以今天这篇就来介绍如何获得这些图形的坐标数据. ...
shelve模块
#coding:utf-8 __author__ = 'similarface' #email:similarface@outlook.com ''' shelve模块: 映射容器存储对象,被存储的 ...
Linux-如何添加路由表
linux下静态路由修改命令方法一:添加路由route add -net 192.168.0.0/24 gw 192.168.0.1route add -host 192.168.1.1 dev 19 ...
js标题文字向上滚动
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xht ...
Linux关闭防火墙，关闭Selinux
查看防火墙状态 iptables -L or service iptables status 临时性关闭防火墙 iptables -F or service iptables stop 永久性关闭防火 ...
记一下flex弹性布局
flex弹性布局也越来越广泛的在我们代码中出现了,更加方便我们的布局.自己用了查,查了用,有些还是记不住,俗话说好脑子不如烂笔头,原来都是写在本子上的,很不幸的一次次的想翻的时候总是找不到,还是写博客 ...
【luogu P4005 清华集训2017】小Y和地铁
题目描述小 Y 是一个爱好旅行的 OIer.一天,她来到了一个新的城市.由于不熟悉那里的交通系统,她选择了坐地铁. 她发现每条地铁线路可以看成平面上的一条曲线,不同线路的交点处一定会设有换乘站 . ...
Python：匿名函数lambda的函数用法和排序用法
一.介绍: Lambda函数,是一个匿名函数,创建语法: lambda parameters:express parameters:可选,如果提供,通常是逗号分隔的变量表达式形式,即位置参数. exp ...
小程序上拉加载更多数据（onReachBottom）
 <block wx:for="{{list}}" wx:key="item.id"&g ...