Python爬虫3-parse编码与利用parse模拟post请求

GitHub代码练习地址：①利用parse模拟post请求：https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac04_parse-post.py
　　　　　　　　　　 
　　　　　　　　　　 ②parse功能简单应用：https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac03_parse.py

　　　　　　　　　　 ③利用parse模拟post请求(通过request类实现）：https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac05_parse-post(request).py


一、（代码spiderprac03）
利用参数给服务器传递信息时，直接写人类可读的参数是不可以的，参数格式要为dict字典结构，然后必须用parse功能来编码。


二、项目（代码spiderprac04）：
利用parse模块模拟post请求
分析百度词典
①分析步骤：
1. 打开F12
2. 尝试输入单词girl，发现每敲一个字母后都有请求
3. 请求地址是 http://fanyi.baidu.com/sug
4. 利用NetWork-All-Hearders，查看，发现FormData的值是 kw:girl
5. 检查返回内容格式，发现返回的是json格式内容==>需要用到json包

②大致流程：
1. 利用data构造内容，然后urlopen打开
2. 返回一个json格式的结果
3. 结果就应该是girl的释义

三、（代码spiderprac05）
为了更多的设置请求信息，单纯的通过urlopen函数已经不太好用了

此时需要利用request.Request 类

Python爬虫3-parse编码与利用parse模拟post请求的更多相关文章

python爬虫（2）——urllib、get和post请求、异常处理、浏览器伪装
urllib基础 urlretrieve() urlretrieve(网址,本地文件存储地址) 直接下载网页到本地 import urllib.request #urlretrieve(网址,本地文件 ...
利用telnet模拟http请求
最近准备接触php socket编程,所以准备先巩固以前学到的知识, 这里先简单回顾下利用telnet 来模拟http请求. 1.先在80端口指向的目录建立http.php 文件 2.在终端输入 t ...
python爬虫入门（四）利用多线程爬虫
多线程爬虫先回顾前面学过的一些知识 1.一个cpu一次只能执行一个任务,多个cpu同时可以执行多个任务2.一个cpu一次只能执行一个进程,其它进程处于非运行状态3.进程里包含的执行单元叫线程,一个进 ...
python爬虫得到unicode编码处理方式
在用python做爬虫的时候经常会与到结果中包含unicode编码,需要将结果转化为中文,处理方式如下 str.encode('utf-8').decode('unicode_escape')
Python爬虫2-检测编码（使用chardet）
GitHub代码练习地址:https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac02_chardet.py 网页编码问题解决 c ...
Python爬虫(二十三)&lowbar;selenium案例：动态模拟页面点击
本篇主要介绍使用selenium模拟点击下一页,更多内容请参考:Python学习指南 #-*- coding:utf-8 -*- import unittest from selenium impor ...
Python爬虫(二十二)&lowbar;selenium案例：模拟登陆豆瓣
本篇博客主要用于介绍如何使用selenium+phantomJS模拟登陆豆瓣,没有考虑验证码的问题,更多内容,请参考:Python学习指南 #-*- coding:utf-8 -*- from sel ...
Python爬虫之urllib&period;parse详解
Python爬虫之urllib.parse 转载地址 Python 中的 urllib.parse 模块提供了很多解析和组建 URL 的函数. 解析url 解析url( urlparse() ) ur ...
python爬虫 urllib模块url编码处理
案例:爬取使用搜狗根据指定词条搜索到的页面数据(例如爬取词条为‘周杰伦'的页面数据) import urllib.request # 1.指定url url = 'https://www.sogou. ...

随机推荐

JavaScript图表FusionCharts免费在线公开课，由印度原厂技术工程师主讲，10月13日发车
FusionCharts公开课达人还你做轻松晋升图表大师 [开课时间]10月13日 14:30[主讲老师]印度原厂技术工程师[开课形式]网络在线公开课[活动费用]前50名免费现在就可以报名哦报 ...
&period;NET开源资源汇总
1>> 力软信息化系统快速开发框架 2>> 金碟友商网 3>>
typedef的使用2——定义函数
#include <stdio.h> #include <string.h> #pragma warning(disable:4996) //闲言碎语都先不要讲了,直接上函数吧 ...
java使用Myeclipse创建Hibernate项目碰到的诸多问题总结
这两天一直在搞Myeclipse创建Hibernate的1对多映射. 由于缺乏经验,可算是把我坑惨了.控制台是不停地报错啊~~~~我差点就崩溃了. 1.看的是慕课网的Hibernate一对多映射教程, ...
第二节--Servlet
1.在tomcat的webapp下新建一个web项目test 要有WEB-INF目录,其下有web.xml. 2.WEB-INF下文件是给tomcat使用的 3.用户访问localhost:848 ...
bootstrap-glyph-customization
http://www.runoob.com/try/demo_source/bootstrap-glyph-customization.htm http://fontawesome.io/icons/
android 微信听筒无声
Dual talk项目sim卡插在卡2时.微信听筒无声: 第三方APP在听筒接听语音时会固定去设audio_mode为incall,而不会去管以下是sim1还是sim2在位. 而speechdrive ...
UVA-11584 Partitioning by Palindromes （简单线性DP）
题目大意:给一个全是小写字母的字符串,判断最少可分为几个回文子序列.如:“aaadbccb” 最少能分为 “aaa” “d” “bccb” 共三个回文子序列,又如 “aaa” 最少能分为 1 个回文子 ...
Python3分别将list、numpy数组内容写入txt文件中
1.python保存numpy数据: numpy.savetxt("result.txt", numpy_data) 2.保存list数据: file=open('data.txt ...
Vim 技巧
:r 文件名导入另一文件到当前文件中 :! 命令可以不退出当前编辑的文本而能执行系统的命令自定义快捷键注意这里的^P这个是ctrl + V + P :map ^P I//<ESC> ...