最近在抽空学了一下python，于量就拿爬是练了下手，不得不说python的上手非常简单。在网上找了一下，大都是python2的帖子，于是随手写了个python3的。代码非常简单就不解释了，直接贴代码。

#test rdp

import urllib.request

import re

#登录用的帐户信息

data={}

data['fromUrl']=''

data['fromUrlTemp']=''

data['loginId']='12345'

data['password']='12345'

user_agent='Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

#登录地址

#url='http://192.168.1.111:8080/loginCheck'

postdata = urllib.parse.urlencode(data)

postdata = postdata.encode('utf-8')

headers = { 'User-Agent' : user_agent }

#登录

res = urllib.request.urlopen(url,postdata)

#取得页面html
strResult=(res.read().decode('utf-8'))

#用正则表达式取出所有A标签

p = re.compile(r'<a href="(.*?)".*?>(.*?)</a>')

for m in p.finditer(strResult):

    print (m.group(1))#group(1)是href里面的内容，group(2)是a标签里的文字

关于cookie、异常等处理看了一下，没有花时间去处理，毕竟只是想通过写爬虫来学习python。

想要深入的去看这个系列的文章，写得非常详细了。

[Python]网络爬虫

下面是python语法教程，真的只要几分钟就能看完。

Python3 入门教程

python3简单爬虫的更多相关文章

Python3简单爬虫抓取网页图片
现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到 ...
python3 简单爬虫
爬取虎牙直播分类页面的主播的头像,名字,人气今天学习了python3爬虫,上课闲着无聊,自己写了一个爬虫就顺着老师思路爬了虎牙直播分类页面的主播,头像,名字,和人气 HuYaCateScrapy ...
python3+ 简单爬虫笔记
import urllib.request import re def getHtml(url): html = urllib.request.urlopen(url).read() return h ...
Python3网络爬虫（1）：利用urllib进行简单的网页抓取
1.开发环境 pycharm2017.3.3 python3.5 2.网络爬虫的定义网络爬虫,也叫网络蜘蛛(web spider),如果把互联网比喻成一个蜘蛛网,spider就是一只在网上爬来爬去的 ...
python3实现简单爬虫功能
本文参考虫师python2实现简单爬虫功能,并增加自己的感悟. #coding=utf-8 import re import urllib.request def getHtml(url): page ...
【python3两小时快速入门】入门笔记03：简单爬虫+多线程爬虫
作用,之间将目标网页保存金本地 1.爬虫代码修改自网络,目前运行平稳,博主需要的是精准爬取,数据量并不大,暂未加多线程. 2.分割策略是通过查询条件进行分类,循环启动多条线程. 1.单线程简单爬虫(第 ...
Python3&period;x爬虫教程：爬网页、爬图片、自己主动登录
林炳文Evankaka原创作品. 转载请注明出处http://blog.csdn.net/evankaka 摘要:本文将使用Python3.4爬网页.爬图片.自己主动登录.并对HTTP协议做了一个简单 ...
python网络爬虫，知识储备，简单爬虫的必知必会，【核心】
知识储备,简单爬虫的必知必会,[核心] 一.实验说明 1. 环境登录无需密码自动登录,系统用户名shiyanlou 2. 环境介绍本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到桌 ...
Python3 网络爬虫（请求库的安装）
Python3 网络爬虫(请求库的安装) 爬虫可以简单分为几步:抓取页面,分析页面和存储数据在页面爬取的过程中我们需要模拟浏览器向服务器发送请求,所以需要用到一些python库来实现HTTP的请求操 ...

随机推荐

Service Plugin / Agent - 每天5分钟玩转 OpenStack（73）
Core Plugin/Agent 负责管理核心实体:net, subnet 和 port.而对于更高级的网络服务,则由 Service Plugin/Agent 管理.Service Plugin ...
【Qt】命令行编译Qt程序(nmake)【转】
简述前两节讲解了如何在Visual Studio和Qt Creator中搭建Qt开发环境,并分享了我们第一个小程序-Hello World. 下面分享如何使用命令行来编译Qt程序.当然,MSVC和M ...
记2016商大ACM省赛
比赛前三天才得到省赛的非正式参赛名额,总有点哭笑不得,笑的是是我的终究是我的,跑不掉…… 哭的是现在就剩三天了,虽然最近也一直在参加训练赛,但一直是断断续续的,对自己现在的水平并没有太大的信心…… 虽 ...
git修改目录名称
同步代码 $ git pull origin master 修改某个目录名称 $ git mv doc docs 把doc目录修改为docs 提交至远程仓库 $ git push origin mas ...
String的indexOf()用于获取字符串中某个子字符串的位置
indexOf作用:用于检索一个字符串在另一个字符串中的位置. indexOf的几个重载方法如下: int indexOf(String str) 意思为在字符串中检索str第一次出现的位置,如果找 ...
javaScript设计模式之面向对象编程（object-oriented programming，OOP）(二）
接上一篇面向对象编程的理解? 答:面向对象编程,就是将你的需求抽象成一个对象,然后针对这个对象分析其特征(属性)与动作(方法).这个对象我们称之为类.面向对象编程思想其中一个特点就是封装,就是把你需 ...
MyBatis缓存策略
MyBatis 提供了一级缓存和二级缓存策略,一级缓存是作用在SqlSession级别上的,而二级缓存则是作用在Mapper级别上的( 即作用在 namespace上),MyBatis 默认是开启的一 ...
Redis连接池
package com.lee.utils; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; impor ...
python爬虫学习笔记（二）——基础篇之爬虫基本原理
1.什么是爬虫? 请求网站并提取数据的自动化程序 2.爬虫基本流程 2.1发起请求通过HTTP库向目标站点发起请求,即发起一个Request,请求可以包含额外的headers等信息,等待服务器响应: ...
yii2的下载安装
1.直接使用归档文件安装yii2的高级模板: 从 yiiframework.com 下载归档文件. 下载yii2的高级模板的压缩文件, 将yii-advanced-app-2.0.12文件夹复制到项目 ...