Python BeautifulSoup 输入HTML 之后 返回 空值

时间:2022-03-29 20:39:15

爬虫 爬取同一个 网站的同一个模板页面,有的可以成功,有的界面 bs4返回 空值(非 Nona )奇了怪 纳了闷了。

自己 去Google 都不知道该如何写关键字去搜索。

症状:获取的网页page 是正常的,打印也不乱码。就是到BeautifulSoup(html) 之后 返回的是空值。

百般无奈 写正则表达式吧。把获取值都改成了 正则表达式,还好当前页面只需要获取几个值。线上运行OK 了

现在 还是自己找找原因吧。

在另外一台低版本的bs4上就没有问题了 在高版本的就出现了这个问题,问题锁定 是在版本上

所以查看 版本更新的日志,看下由于版本更新可能引起的原因。

最新版本 在解析的时候 最好传入解析的类型是XML 还是 HTML 还是其他的类型。

BeautifulSoup(page,"html.parser") 所以在原来的参数种 传入html.parser 

问题解决.猜测 原因 既然新版本让传入解析类型了,所以 可能由于某些HTML 的原因  bs4没有判断出 传入的是HTML 无法进行解析。