Python 2.7_爬取CSDN单页面博客文章及url(二)_xpath提取_20170118

上次用的是正则匹配文章title 和文章url,因为最近在看Scrapy框架爬虫需要了解xpath语法学习了下拿这个例子练手

1、爬取的单页面还是这个rooturl：http://blog.csdn.net/column/details/why-bug.html

2、用requests的 get方法添加一个header 请求rooturl获得网站源代码不添加header源代码里面是抓不到内容的

3、用lxml下的etree.HTML()方法将requests请求的html源码（html变量）返回给seletor这个对象

4、分析网页结构找到能够包含文章url和标题内容的区域调用返回的selector.xpath()方法返回一个Element类型对象的列表infos

5、定义一个空列表titlelists,这个大列表用来保存第6步取出的 titleurls列表和文章titlenames列表用zip函数整理成titlelist列表元素为（titleurl,titlename）元组的一个列表进而添加进大列表titlelists

6、大列表titlelists 此时的数据类型是列表每一个元素为一个小列表小列表元素为元组进行遍历切片之前用的是enumerate 方法取索引和内容现在用titlelists.index(i)方法取索引

代码如下：

#coding:utf-8

from lxml import etree

import requests

import sys

reload(sys)

sys.setdefaultencoding('utf8')

rooturl='http://blog.csdn.net/column/details/why-bug.html'

headers={'User-Agent':'Chrome'}

req=requests.get(rooturl,headers=headers)

req.encoding='utf-8'

html=req.text

selector=etree.HTML(html)

infos=selector.xpath('//ul[@class="detail_list"]/li')

titlelists=[]

for info in infos:

    titleurls=info.xpath('h4/a/@href')

    titlenames=info.xpath('h4/a/text()')

    titlelist=zip(titleurls,titlenames)

    titlelists.append(titlelist)

print  '爬取完毕，一共爬取了%s篇文章' % len(titlelists)

for i in titlelists:

    print '第%s篇文章为：【%s】,链接：%s' % (titlelists.index(i)+1,i[0][1],i[0][0])

　 Python 2.7_爬取CSDN单页面博客文章及url(二)_xpath提取_20170118

Python 2.7_爬取CSDN单页面博客文章及url(二)_xpath提取_20170118的更多相关文章

Python 2&period;7&lowbar;爬取CSDN单页面利用正则提取博客文章及url&lowbar;20170114
年前有点忙,没来的及更博,最近看爬虫正则的部分巩固下 1.爬取的单页面:http://blog.csdn.net/column/details/why-bug.html 2.过程解析url获得网站 ...
一文搞定scrapy爬取众多知名技术博客文章保存到本地数据库，包含：cnblog、csdn、51cto、itpub、jobbole、oschina等
本文旨在通过爬取一系列博客网站技术文章的实践,介绍一下scrapy这个python语言中强大的整站爬虫框架的使用.各位童鞋可不要用来干坏事哦,这些技术博客平台也是为了让我们大家更方便的交流.学习.提高 ...
[Python学习] 简单爬取CSDN下载资源信息
这是一篇Python爬取CSDN下载资源信息的样例,主要是通过urllib2获取CSDN某个人全部资源的资源URL.资源名称.下载次数.分数等信息.写这篇文章的原因是我想获取自己的资源全部的评论信息. ...
python爬虫实例——爬取歌单
学习自<<从零开始学python网络爬虫>> 爬取酷狗歌单,保存入csv文件直接上源代码:(含注释) import requests #用于请求网页获取网页数据 from b ...
Python 2&period;7&lowbar;爬取妹子图网站单页测试图片&lowbar;20170114
1.url= http://www.mzitu.com/74100/x,2为1到23的值 2.用到模块 os 创建文件目录; re模块正则匹配目录名图片下载地址; time模块限制下载时间;req ...
python使用bs4爬取boss静态页面
思路: 1.将需要查询城市列表,通过城市接口转换成相应的code码 2.遍历城市.职位生成url 3.通过url获取列表页面信息,遍历列表页面信息 4.再根据列表页面信息的job_link获取详情页面 ...
爬虫概念与编程学习之如何爬取视频网站页面（用HttpClient）（二）
先看,前一期博客,理清好思路. 爬虫概念与编程学习之如何爬取网页源代码(一) 不多说,直接上代码. 编写代码运行 <!DOCTYPE html><html><head& ...
看我怎么扒掉CSDN首页的底裤（python selenium+phantomjs爬取CSDN首页内容）
这里只是学习一下动态加载页面内容的抓取,并不适用于所有的页面. 使用到的工具就是python selenium和phantomjs,另外调试的时候还用了firefox的geckodriver.exe. ...
爬取王垠的博客并生成pdf
尚未完善,有待改进 #!/usr/bin/env python3 # -*- coding: utf-8 -*- __author__ = 'jiangwenwen' import pdfkit im ...

随机推荐

Atitit vod ver 12 new feature v12 pb2 影吧视频电影点播播放系统v12新特性
Atitit vod ver 12 new feature v12 pb2 影吧视频电影点播播放系统v12新特性项目分离从独立的se ver Run mode from brow ex to ...
Struts2 源码分析——前言
笔者简言笔者在博园里面注册是在二年前.可是那个时候我不知道要写些什么,也怕写出来被别人骂误人子弟.而现在却动笔了是因为前一段时间内我去参加一些大公司的面试,让笔者内心深处留下很多问号.最近三年来我一 ...
关于Android四大组件的学习总结
Activity Android应用的用户界面是由Activity类管理的.和其他组件一样,Activity会用一系列生命周期回调函数通知当前的状态. 生命周期 Activity的四种状态 1.运行状 ...
setValuesForKeysWithDictionary forUndefinedKey
http://my.oschina.net/u/2407613/blog/524879 -(void)setValue:(id)value forUndefinedKey:(NSString *)ke ...
C&num; 执行JS
需引用命名空间:Microsoft.VsaMicrosoft.JScript using System; using System.Collections.Generic; using System. ...
【LeetCode】169 - Majority Element
Given an array of size n, find the majority element. The majority element is the element that appear ...
G450 Ubuntu14 无线网卡解决
安装了Ubuntu14,与win7共存. grub界面启动. G450的本子,安装完之后发现无线网卡不能被驱动,但能被之别到,因此激活一次broadcom sta wireless driver 命令 ...
JSON和JAVA的POJO的相互转换【转载】
该类中用用到的jar包:参加文章<使用json-lib进行Java和JSON之间的转换[转载]> import java.util.Collection; import java.util ...
HDU 2112 HDU Today（Dijkstra）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=2112 HDU Today Time Limit: 15000/5000 MS (Java/Others ...
Java 容器一些知识
一.Collection 1.static 方法: Collections.sort(List<T>):实现List排序功能 Collections.fill(List<T> ...