python爬虫课程要点.docx

时间:2023-05-16 08:30:29
【文件属性】:

文件名称:python爬虫课程要点.docx

文件大小:54KB

文件格式:DOCX

更新时间:2023-05-16 08:30:29

python

python基本库的使用: 1)使用urllib python内置的HTTP请求库,包含四个模块:request、error、parse、robotparser。request:最基本的HTTP请求模块,可以用来模拟发送请求。 2)Request url:请求地址,必传参数。 data:附加参数(from表数据),bytes字节流格式,如果是字典型(dict),先用urllib.parse.urlencode()编码。 headers:请求头,字典类型,可以构造请求时直接通过headers参数构造,或通过add_header() 3)response:urlopen返回类型为HTTPResponse对象。 4)正则表达式:强大的字符串处理工具,有自己特定的语法结构,实现字符串的检索、替换、匹配、验证。 5)函数:end(),返回指定分组的结束位置,默认返回正则表达式所匹配到的最后一个字符的索引。 6)BeautifulSoup:解析器 BeautifulSoup在解析时实际上依赖解析器,它除了支持Python标准库中的HTML解析器外,还支持一些第三方解析器


网友评论