尝试上述文章中的全网IP的IP地址爬取。
使用网页分析工具可以发现,网页上隐藏了所有 p 标签中 style属性为display: none;的标签。
想要获取正确的IP地址文本,需要将所有属性值为 display: none;的标签删除。
可以使用 BeautifulSoup 的 extract 功能实现该功能。
for i,td_item in enumerate(td_soup): if i ==0: del_list = [s.extract() for s in td_item.find_all('p', attrs={'style': 'display: none;'})] print(td_item.text)
删除需要隐藏的标签后,直接获取各td标签下的文本,就可获取正确的IP信息