The WebSite is the api...
以下5个步骤逐步加深
- Requests
实现自动爬去网络页面,自动网络请求提交。
- Robots协议
仔细阅读每个平台的robots协议,了解那些爬虫是被拒绝的。
- BeautifulSoup
解析获得的每个HTML页面。
- RE
正则表达式详情,提取每个页面的关键信息。
- scrapy
深度爬虫框架实现更复杂的功能。
实现自动爬去网络页面,自动网络请求提交。
仔细阅读每个平台的robots协议,了解那些爬虫是被拒绝的。
解析获得的每个HTML页面。
正则表达式详情,提取每个页面的关键信息。
深度爬虫框架实现更复杂的功能。