全网代理IP,IP信息爬取

时间:2022-12-24 16:56:39

反击爬虫,前端工程师的脑洞可以有多大?

尝试上述文章中的全网IP的IP地址爬取。

全网代理IP,IP信息爬取

使用网页分析工具可以发现,网页上隐藏了所有 p 标签中 style属性为display: none;的标签。

想要获取正确的IP地址文本,需要将所有属性值为 display: none;的标签删除。

可以使用 BeautifulSoup 的 extract 功能实现该功能。

全网代理IP,IP信息爬取

for i,td_item in enumerate(td_soup):
    if i ==0:
        del_list = [s.extract() for s in td_item.find_all('p', attrs={'style': 'display: none;'})]
    print(td_item.text)

删除需要隐藏的标签后,直接获取各td标签下的文本,就可获取正确的IP信息