网络爬虫的基本实现步骤

时间:2022-12-26 20:40:48

The WebSite is the api...

以下5个步骤逐步加深

  • Requests  

  实现自动爬去网络页面,自动网络请求提交。

  • Robots协议 

  仔细阅读每个平台的robots协议,了解那些爬虫是被拒绝的。

  • BeautifulSoup

  解析获得的每个HTML页面。

  • RE   

  正则表达式详情,提取每个页面的关键信息。

  • scrapy

  深度爬虫框架实现更复杂的功能。