Python爬虫学习(一)爬虫的基础

时间:2021-11-07 03:09:40
1.URL和URI

    URI包括URL(统一资源定位符)和URN(统一资源名称)。URN只命名资源而不指定如何定位资源。

2.超文本

     我们在浏览器里看到的网页就是超文本解析而成的,其网页源代码是一系列HTML代码。

3.HTTP和HTTPS

       访问资源需要的协议类型。HTTP叫做超文本传输协议。HTTP协议是用于从网络传输超文本数据到本地浏览器的传送协议。

HTTPS是以安全为目标的HTTP通道,HTTP的安全版,即HTTP下加入SSL层。

4.无状态HTTP

       HTTP的无状态是指HTTP协议对事务处理是没有记忆能力的,也就是说服务器不知道客户端是什么状态。这意味着如果后续需要处理前面的信息,则必须重传,这对于需要用户登录的页面来说,是不好的。

       两个用于保持HTTP连接状态的技术出现了,它们分别是 会话和Cookies。会话在服务器端,也就是网站的服务器,用来保存用户的会话信息;Cookies在客户端,有了Cookies,浏览器在下次访问网页时会自动附带上它发给浏览器,浏览器通过识别Cookies并鉴定出是哪一个用户,然后判断用户是否是登录状态,然后返回对应的响应。

5.会话机制 

      程序一般都是在我们做注销操作时才去删除会话。大部分会话机制都使用会话cookie来保存会话ID信息,而关闭浏览器后cookies就消息了,再次连接服务器时,也就无法找到原来的会话了。如果服务器设置的cookies保存到硬盘上,或者使用某种手段改写浏览器发出的HTTP请求头,把原来的Cookies发送给浏览器,则再次打开浏览器,仍然能够找到原来的会话ID,依旧可以保持登录状态的。