Python 爬取豆瓣电影Top250排行榜，爬虫初试

from bs4 import BeautifulSoup

import openpyxl

import re

import urllib.request

import urllib.error

# 访问url

def ask_url(url):

    # 伪装浏览器

    head = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) \

        AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36'}

    req = urllib.request.Request(url, headers=head)  # 包装

    try:

        response = urllib.request.urlopen(req, timeout=3)  # 访问 超时3s结束

        html = response.read().decode('utf-8')  # 解码

        return html  # 返回url网页html源码

    except urllib.request.HTTPError as e:

        if hasattr(e, 'code'):

            print(e.code)

    except urllib.error.URLError as e:

        if hasattr(e, 'reason'):

            print(e.reason)

# 爬取网页

def crawl_web(base_url):

    data_list = []

    # re电影名

    re_movie_name = re.compile(r'<span class="title">(.*?)</span>')

    # re影片详情连接

    re_movie_link = re.compile(r'<a class="" href="(.*?)">')

    # re影片海报图片

    re_movie_img = re.compile(r'<img.*src="(.*?)".*?>', re.S)

    # re电影简介

    re_movie_introduction = re.compile(r'<p class="">(.*?)</p>', re.S)

    # re评分

    re_movie_score = re.compile(

        r'<span class="rating_num" property="v:average">(.*?)</span>')

    # re评分人数

    re_movie_judge = re.compile(r'<span>(.*?)人评价</span>')

    # re一句话评价

    re_moive_inq = re.compile(r'<span class="inq">(.*?)。*</span>')

    for i in range(10):

        url = base_url + str(i * 25)

        html = ask_url(url)  # 获取网页源码

        soup = BeautifulSoup(html, 'html.parser')  # 解析源码

        for item in soup.find_all(class_='item'):

            item = str(item).replace(u'\xa0', ' ')  # 获取的页面中有奇妙代码(●'◡'●)，所以要去掉

            data = []

            # 获取需要的信息

            movie_name = re.findall(re_movie_name, item)

            if len(movie_name) > 1:

                data.append(movie_name[0])

                data.append(movie_name[1].replace('/', ''))

            else:  # 没有外语名也要空出来，方便后续储存

                data.append(movie_name[0])

                data.append('暂无')

            movie_link = re.findall(re_movie_link, item)[0]

            data.append(movie_link)

            movie_img = re.findall(re_movie_img, item)[0]

            data.append(movie_img)

            movie_introduction = re.findall(re_movie_introduction, item)[0]

            movie_introduction = re.sub(

                r'<br(.*)?>', ' ', movie_introduction).strip()  # 存入简介时要去掉含有的html标签

            data.append(movie_introduction)

            movie_score = re.findall(re_movie_score, item)[0]

            data.append(movie_score)

            movie_judge = re.findall(re_movie_judge, item)[0]

            data.append(movie_judge)

            moive_inq = re.findall(re_moive_inq, item)

            if len(moive_inq) == 0:  # 有时候没有一句话短评，同上要空出

                data.append('暂无')

            else:

                data.append(moive_inq[0])

            # 添加到data_list

            data_list.append(data)

    return data_list

def save_data(save_path, data_list):

    wb = openpyxl.Workbook()

    ws = wb.active

    ws.title = '豆瓣TOP250'

    first_row = ("电影名", "其他名", "影片详情连接", "影片海报图片",

                 "电影简介", "评分", "评分人数", "一句话评价")

    temp = 1

    for i in first_row:  # 生成表头

        ws.cell(1, temp, i)

        temp += 1

    row = 1

    for i in data_list:  # 存入数据

        row += 1

        column = 1

        for j in i:

            ws.cell(row, column, j)

            column += 1

    wb.save(save_path+'豆瓣TOP250.xlsx')

    return None

if __name__ == "__main__":

    base_url = 'https://movie.douban.com/top250?start='

    save_path = 'E:\\School\\Study\\Python\\爬虫\\'

    data_list = crawl_web(base_url)

    save_data(save_path, data_list)

    print('Crawl over')

Python 爬取豆瓣电影Top250排行榜，爬虫初试的更多相关文章

零基础爬虫----python爬取豆瓣电影top250的信息（转）
今天利用xpath写了一个小爬虫,比较适合一些爬虫新手来学习.话不多说,开始今天的正题,我会利用一个案例来介绍下xpath如何对网页进行解析的,以及如何对信息进行提取的. python环境:pytho ...
Python爬取豆瓣电影top
Python爬取豆瓣电影top250 下面以四种方法去解析数据,前面三种以插件库来解析,第四种以正则表达式去解析. xpath pyquery beaufifulsoup re 爬取信息:名称评分 ...
Python爬虫入门：爬取豆瓣电影TOP250
一个很简单的爬虫. 从这里学习的,解释的挺好的:https://xlzd.me/2015/12/16/python-crawler-03 分享写这个代码用到了的学习的链接: BeautifulSoup ...
python 爬虫&amp&semi;爬取豆瓣电影top250
爬取豆瓣电影top250from urllib.request import * #导入所有的request,urllib相当于一个文件夹,用到它里面的方法requestfrom lxml impor ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作在pycharm中安装request库 ...
Scrapy中用xpath/css爬取豆瓣电影Top250：解决403HTTP status code is not handled or not allowed
好吧,我又开始折腾豆瓣电影top250了,只是想试试各种方法,看看哪一种的方法效率是最好的,一直进行到这一步才知道 scrapy的强大,尤其是和selector结合之后,速度飞起.... 下面我就采用 ...
urllib+BeautifulSoup无登录模式爬取豆瓣电影Top250
对于简单的爬虫任务,尤其对于初学者,urllib+BeautifulSoup足以满足大部分的任务. 1.urllib是Python3自带的库,不需要安装,但是BeautifulSoup却是需要安装的. ...
python2&period;7爬取豆瓣电影top250并写入到TXT，Excel，MySQL数据库
python2.7爬取豆瓣电影top250并分别写入到TXT,Excel,MySQL数据库 1.任务爬取豆瓣电影top250 以txt文件保存以Excel文档保存将数据录入数据库 2.分析电影 ...

随机推荐

【repost】js中(function(){…})()立即执行函数写法理解
摘要: javascript和其他编程语言相比比较随意,所以javascript代码中充满各种奇葩的写法,有时雾里看花,当然,能理解各型各色的写法也是对javascript语言特性更进一步的深入理解. ...
python opencv 实现Reinhard颜色迁移算法
Reinhard颜色迁移算法的过程很简单,流程如下,细节部分见原文,题目为color transfer between images: 将参考图片和目标图片转换到LAB空间下得到参考图片和目标图片的 ...
常用的dos命令
cd 进入一个目录 cd .. 返回上一个目录 dir 遍历目录上下键查找输入过的命令 Tab键命令自动补齐
Unity中使用多构造函数（转）
如果要实例化的类只有一个构造函数, 则使用方法很简单使用方法如下: 1 2 3 4 5 6 7 using (IUnityContainer container = new UnityContaine ...
python备忘录
本文主要是记录一下python,比较详尽的python学习资料: Python学习笔记_王纯业 http://pan.baidu.com/s/1eQrDEYA 部分有详细的博文链接 1.字符串: 切片 ...
Android Support v4、v7、v13的区别和应用场景
N久未做android了,以前做的时候,2.2才刚出来,现在android都更新到了4.3了,而从前一段时间android各个sdk版本市场占有率来看,1.6.2.1还是占有一定的市场,故在有些时候 ...
Python的XMLRPC机制：实现跨进程间、client/server端通信
SimpleXMLRPCServer模块式python语言的一个基于 xml 格式的进程间通信的基础框架. SimpleXMLRPCServer是一个单线程的服务器,这意味着,如果几个客户端同时发出多 ...
【转】调用getActionBar()报Call requires API level 11 (current min is 8)&colon; android&period;app&period;Activity&num;getActionBar
解决办法: 第一种方法:修改AndroidManifest.xml中的minSdkVersion=11 第二种方法: 1.导入android-support-v7-appcompat项目,并将其作 ...
m函数与m文件的命名
问题创建函数test_image,按照定义方式进行调用,一直出现下图所示的错误, 调试的过程中一直提示输入参数太多,可是test_image这个函数的输入个数和调用这个函数的输入输出数目是一致的,然 ...
Android-无序广播
在之前的博客,Android-广播概念,中介绍了(广播和广播接收者)可以组件与组件之间进行通讯,有两种类型的广播(无序广播和有序广播),这篇博客就来讲解无序广播的代码实现: 无序广播:接收者同时 ...