1、一个网页通常包含文本信息。对于不同的文本类型,我们可以选择合适的HTML语义元素进行标记。
2、em元素用于标记和强调部分内容,small元素用于注释和署名文本。
实例
1
2
3
4
5
6
7
8
9
10
11
|
< body >
< h1 >论语学而篇第一</ h1 >
< p >< small >
< b >作者:</ b >< abbr title = "名丘,字仲尼" >孔子< sup >< a href = "#" rel = "external nofollow" >1</ a ></ sup ></ abbr >(< time >前551年9月28日-前479年4月11日</ time >)
</ small ></ p >
< h2 >本篇引语</ h2 >
< p >《学而》是《论语》第一篇的篇名。《论语》中各篇一般都是以第一章的前二三个字作为该篇的篇名。《学而》一篇包括16章,内容涉及诸多方面。其中重点是
< strong >「吾日三省吾身」;「节用而爱人,使民以时」;「礼之用,和为贵」以及仁、孝、信等</ strong >道德范畴。</ p >
< h2 >原文</ h2 >
< p >子曰:「< mark >学而时习之,不亦说乎?</ mark >有朋自远方来,不亦乐乎?人不知,而不愠,不亦君子乎?」 </ p >
</ body >
|
知识点扩展:
Python int与string之间的转化
string–>int
1、10进制string转化为int
int(‘12')
2、16进制string转化为int
int(‘12', 16)
int–>string
1、int转化为10进制string
str(18)
2、int转化为16进制string
hex(18)
2 . 由于链家网上面选中第二页的时候,只是在页面后面多了一个“d2”, 如: http://sh.lianjia.com/ershoufang/pudong/d2 , 所要想爬取更多的网页只需要循环更新requests 的页面URL
3 . 增加了一个循环之后,可以打印所有的爬取结果
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
|
from lxml import etree
import requests
import string
url = 'http://sh.lianjia.com/ershoufang/'
region = 'pudong'
price = 'p23'
finalURL = url + region + price
def spider_room(finallyURL):
r = requests.get(finallyURL)
html = requests.get(finalURL).content.decode( 'utf-8' )
dom_tree = etree.HTML(html)
# all the messages
all_message = dom_tree.xpath( "//ul[@class='js_fang_list']/li" )
for index in range ( len (all_message)):
print (all_message[index].xpath( 'string(.)' ).strip())
return
for i in range ( 20 ):
finallyURL = finalURL + '/d' + str (i)
spider_room(finallyURL)
|
4 . 爬取了20页的内容,可是内容的结果输出的形式并没有改变
以上就是python对网页文本的格式化实例方法的详细内容,更多关于python爬虫中网页文本的格式化的资料请关注服务器之家其它相关文章!
原文链接:https://www.py.cn/jishu/spider/34207.html