本文实例讲述了Python正则抓取新闻标题和链接的方法。分享给大家供大家参考,具体如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
|
#-*-coding:utf-8-*-
import re
from urllib import urlretrieve
from urllib import urlopen
#获取网页信息
doc = urlopen( "http://www.itongji.cn/news/" ).read() #自己找的一个大数据的新闻网站
#抓取新闻标题和链接
def extract_title(info):
pat = '<h3><a target=\"_blank\"(.*?)</a></h3>'
title = re.findall(pat, info)
titles = '\n' .join(title)
#print titles
#修改指定字符串
titles1 = titles.replace( 'class="title"' , 'title' )
titles2 = titles1.replace( '>' , ':' )
titles3 = titles2.replace( 'href' , 'url:' )
titles4 = titles3.replace( '="/' , '"http://www.itongji.cn/' )
#写入文件
save = open ( 'xinwen.txt' , 'w' )
save.write(titles4)
save.close()
titles = extract_title(doc)
|
希望本文所述对大家Python程序设计有所帮助。