pyCharm中BeautifulSoup应用

时间:2022-06-11 12:48:59

BeautifulSoup 是第三方库的工具,它包含在一个名为bs4的文件包中,需要额外安装,安装方式

非常简单,进入python的安装目录,再进入scripts子目录,找到pip程序,

pip install bs4

就可以安装成功了

BeautifulSoup 装载html文档,

如果doc是一个html文档,通过:

from bs4 import BeautifulSoup
soup =BeautifulSoup(doc,'lxml')

就可以创建一个名为soup的BeautifulSoup对象,其中doc是一个html的文档字符串

‘lxml’是一个参数,表示创建的是一个通过‘lxml’解析器解析的文档。

BeautifulSoup查找HTML元素

功能强大的find-all函数

find-all函数的原理如下:

find-all(self,name,attrs={},recursive=true,text=none,limit=none,**kwargs)

self表明它是一个类成员函数,

name是要查找的tag元素名称,默认是none,如果不具体说明,则查找所有元素。

attrs是元素的属性,它是一个字典,默认是空,如果明确指出,则查找有这个属性的元素。

find-all(self,name,attrs={},recursive=true,text=none,limit=none,**kwargs)

find函数使用方法与find_all类似,不同的是它只返回第一个满足要求的节点,并不是一个列表。

# 找到所有的a超链接
tags = soup.find_all("a")
# 找到class = “title” 的 p元素
tag = soup.find("p",attrs={''class":"title"})
# 找到所有含有属性sister的元素
tags = soup.find_all(name=None,attrs={"class":"sister"})
# 获取元素的属性值
tags = soup.find_all("a")
for tag in tags:
    print(tag["href"])
# 找到所有元素的文本值,(不仅包含本节点文本,还包含该节点子树下面所有文本节点的组合值)
tags=soup.find_all("a")
for tag in tags:
   print(tag.text)
# 获取元素父节点
tag.parent
# 获取元素直接子节点
tag.children
# 获取元素节点的所有子孙元素节点
tag.desendants
# 获取元素节点的兄弟节点
# 获取下一个节点
tag.next_sibling
# 获取前一个节点
tag.previous_sibling

# css语法
tag.select(css)
# 其中 tag 是HTML中的一个element节点对象,select是查找它的方法
# css是类似css语法的一个字符串,它的结构如下
[tagName][attName][=value]

tagName是元素名称,如果没有指定,就是所有元素

attName=value是属性名称,value是它对应的值,可以不指定属性,在指定了属性后也可以不指定值;

tag.select(css)返回一个列表,哪怕只有一个元素时也是一个列表;

#查找文档中所有p节点下的所有a节点
soup.select("a")

#查找文档中所有class属性等于story的p节点下的所有a元素节点
soup.select("p[class='story'] a")

#查找文档中所具有class属性的p节点下的所有a元素节点
soup.select("p[class] a")

# 查找属性id=“link1”的a节点
soup.select("a[id='link1']")

# 查找body下面head下面title节点
soup.select(""body head title)

#查找body下面所有具有class属性的节点
soup.select("body [class]")

# 查找body下面所有具有class属性的节点下面的a节点
soup.select("body [class] a")

在select(css)中 css 有多个节点时,节点元素之间用空格分开,就是查找子孙节点

# 查找div节点下面的所有直接子节点
soup.select("div > p")
#查找div后面所有同级别的兄弟节点(注意~前后至少有一个空格)
tags = soup.select("div ~ p")
#查找div后面所有同级别的第一个兄弟节点(注意+前后至少有一个空格)
tags = soup.select("div + p")
# 查找 href 是 “http://example.com/elsi” 的a节点
soup.select("a[href='http://example.com/elsie']")

# 查找href以“sie” 结尾的 a 节点
soup.select("a[href$='sie']")

# 查找 href 以 “http://example.com” 开始的a节点
soup.select("a[href^='http://example.com']")

# 查找 href 中包含“example” 开始的a节点
soup.select("a[href*='example']")