1.非结构化数据
正则表达式(re)
Xpath(lxml)
css选择器(bs4)
2.结构化数据
json(json)
xml
3.动态html
动态页面
ajax:分析xhr
javascript,jquery:请求的数据都是js加载之前的,所以要解析js(困难),或执行js(selenium)
tips:
1.在使用css选择器时如何定位
通过find_all()找到相应地标签
然后通过循环,找出每个节点的父节点,子节点
2.如果pc网页难查询,可以试一下手机端网页