BeautifulSoup解析豆瓣即将上映的电影信息

工欲善其事，必先利其器，我们首先得了解beautifulsoup的使用，这其实是一个比较简单的东西

BeautifulSoup的基本使用语法规则

.find() 使用示例
soup.find('a')。那么会返回在soup包含的源代码中，遇到的第一个<a>...</a>标签内容对象。
soup.find('a', id='next')。那么会返回在soup包含的源代码中，遇到的第一个有属性为id，值为next的<a>对象，比如<a id="next">...</a>。(不只可以用id，大部分其他的属性都可以直接使用，比如src、name。 值得注意的是，class这个属性因为是Python关键字，不能直接使用，所以在BS里面，使用class_='...'进行代替 )
find返回的结果，依然可以继续使用find()或者find_all()方法。如果找不到指定的内容，find会返回None。
.find_all()使用示例
soup.find_all('a')。那么会返回在soup包含的源代码中，遇到的所有<a>...</a>标签内容的可迭代对象(我们可以把它看成一个 list 或者数组)。
soup.find_all('a', class_='next')。那么会返回在soup包含的源代码中，遇到的所有属性为class，值为next的<a>的可迭代对象，比如<a class="next">...</a>。(语法和find也一样，class也不能直接写)
find_all返回的“list”中的单个对象依然可以继续使用find()或者find_all()方法。如果找不到指定的内容，find_all会返回一个空的“list”。
获取元素的某个属性
soup['src]，这样我们就能取出soup对象的src属性了。如果该属性不存在，那么程序会报错。
获取元素中的所有文本
soup.text，假设soup对象为<div>你好<a>复联</a></div>，那么这个操作返回字符串是你好复联。

首先我们获得html的源码，然后保存到文件中，使用beautiful读出来解析：

import  requests
from bs4 import  BeautifulSoup
url="https://movie.douban.com/cinema/later/chengdu/"
douban_req = requests.get(url)
# print(douban_req.content.decode('utf-8'))  #输出获得的内容
#防止被服务器封掉ip，也减轻服务器压力，保存到本地

file_douban = open("douban.html","wb") # 写入文件
file_douban.write(douban_req.content)
file_douban.close()
# 以只读的方式打开文件
file_open=open("douban.html","rb")
html = file_open.read()
file_open.close()
#解析
soup = BeautifulSoup(html,"lxml") # 初始化BeautifulSoup
print(soup.find("link",href="https://img3.doubanio.com/f/shire/52c9997d6d42db58eab418e976a14d5f3eff981e/css/douban.css"))

将所有的电影信息输出

#解析
soup = BeautifulSoup(html,"lxml") # 初始化BeautifulSoup
all_movie=soup.find("div",id="showing-soon",class_="tab-bd") # 获得整个板块
for each_mobie in all_movie.find_all("div",class_="item"):
    print(each_mobie)

效果图：

BeautifulSoup解析豆瓣即将上映的电影信息

接下来我们对每个具体电影进行切割分析

BeautifulSoup解析豆瓣即将上映的电影信息

我们可以看到首先电影的简单信息都在<ul> </ul>中，因此根据find，和find_all来获得信息

import  requests
from bs4 import  BeautifulSoup
url="https://movie.douban.com/cinema/later/chengdu/"
douban_req = requests.get(url)
# print(douban_req.content.decode('utf-8'))  #输出获得的内容
#防止被服务器封掉ip，也减轻服务器压力，保存到本地

file_douban = open("douban.html","wb") # 写入文件
file_douban.write(douban_req.content)
file_douban.close()
# 以只读的方式打开文件
file_open=open("douban.html","rb")
html = file_open.read()
file_open.close()
#解析
soup = BeautifulSoup(html,"lxml") # 初始化BeautifulSoup
all_movie=soup.find("div",id="showing-soon",class_="tab-bd") # 获得整个板块
for each_mobie in all_movie.find_all("div",class_="item"):
    title=each_mobie.find("a",class_="")#标题名字
    ule_title = title["href"]
    ul_information = each_mobie.find_all("li",class_="dt")
    time =ul_information[0].text
    opera = ul_information[1].text
    country =ul_information[2].text
    people = each_mobie.find("li",class_="dt last").text
    trailer= each_mobie.find("a",class_="trailer_icon")
    print("电影链接:",title.text )
    print(ule_title)
    print(time)
    print(opera)
    print(people)
    if trailer is None:
        print("暂时没有预告片")
    else:
        print("预告片:",trailer["href"])
    print("")

效果：

BeautifulSoup解析豆瓣即将上映的电影信息

自己也可以增加别的元素，如把海报照片保存下来等，其实都是同样的操作。

具体可参考大佬链接：https://www.jianshu.com/p/c64fe2a20bc9

如果数据保存成html或者csv格式：https://www.jianshu.com/p/011abdcee7e4

秒客网

BeautifulSoup解析豆瓣即将上映的电影信息

相关文章