Python爬虫学习（一）爬虫的基础

1.URL和URI

URI包括URL（统一资源定位符）和URN（统一资源名称）。URN只命名资源而不指定如何定位资源。

2.超文本

我们在浏览器里看到的网页就是超文本解析而成的，其网页源代码是一系列HTML代码。

3.HTTP和HTTPS

访问资源需要的协议类型。HTTP叫做超文本传输协议。HTTP协议是用于从网络传输超文本数据到本地浏览器的传送协议。

HTTPS是以安全为目标的HTTP通道，HTTP的安全版，即HTTP下加入SSL层。

4.无状态HTTP

HTTP的无状态是指HTTP协议对事务处理是没有记忆能力的，也就是说服务器不知道客户端是什么状态。这意味着如果后续需要处理前面的信息，则必须重传，这对于需要用户登录的页面来说，是不好的。

两个用于保持HTTP连接状态的技术出现了，它们分别是会话和Cookies。会话在服务器端，也就是网站的服务器，用来保存用户的会话信息；Cookies在客户端，有了Cookies，浏览器在下次访问网页时会自动附带上它发给浏览器，浏览器通过识别Cookies并鉴定出是哪一个用户，然后判断用户是否是登录状态，然后返回对应的响应。

5.会话机制

程序一般都是在我们做注销操作时才去删除会话。大部分会话机制都使用会话cookie来保存会话ID信息，而关闭浏览器后cookies就消息了，再次连接服务器时，也就无法找到原来的会话了。如果服务器设置的cookies保存到硬盘上，或者使用某种手段改写浏览器发出的HTTP请求头，把原来的Cookies发送给浏览器，则再次打开浏览器，仍然能够找到原来的会话ID，依旧可以保持登录状态的。

秒客网

Python爬虫学习（一）爬虫的基础

1.URL和URI

相关文章