TMDB电影数据分析

时间:2024-04-05 11:27:57

                                                     这是关于TMDB5000条电影数据的分析报告

       数据来源于Kaggle https://www.kaggle.com/tmdb/tmdb-movie-metadata

报告分为

    (1)提出问题

    (2)认识数据

    (3)清洗数据

    (4)分析数据

    (5)总结

(一)提出问题

     (1)对电影类型的分析,电影类型主要有哪些,哪些电影类型数量最多,电影类型随时间的变化,哪些电影的票房/利润多,观众更喜欢那种类型的电影

     (2)电影票房与哪些因素相关,电影受欢迎程度的分析

     (3)UniversalPictures和Paramount Pictures这两个公司产出电影的情况对比

     (4)对电影导演,突出关键字,电影时长,电影产出地的情况进行分析

     (5)原创电影和非原创电影的分析

(二)认识数据

       从https://www.kaggle.com/tmdb/tmdb-movie-metadata 下载数据集

       有tmdb_5000_credits.csv和tmdb_5000_movies.csv这两个数据集,描述电影演员相关信息和每部电影的基本信息

TMDB电影数据分析

TMDB电影数据分析

TMDB电影数据分析

可以看出credits有4803行4列数据

TMDB电影数据分析

TMDB电影数据分析

可以看出movies有4803行20列数据

TMDB电影数据分析

2.数据清洗

(1)格式转化
   credits数据中,cast、crew都是json的格式,需要将演员、导演读取出来,以字符串格式显示
   movies数据中genres、keywords、production_companies、spoken_languages也是json格式,需要转化成字符串

(a).credits  json解析

TMDB电影数据分析

TMDB电影数据分析

TMDB电影数据分析

TMDB电影数据分析

(b).movies  json解析

TMDB电影数据分析

(2)合并数据

  credits和movies中都有movie_id和title,检查这两个字段是否是相同的

TMDB电影数据分析

可以看出这两个字段是相同的,将movies的title删掉
 方法一:直接del DF['column-name']
 方法二:采用drop方法,有下面三种等价的表达式:
 1. DF= DF.drop('column_name', 1);
 2. DF.drop('column_name',axis=1, inplace=True)

 3. DF.drop(DF.columns[ : ], axis=1,inplace=True)

TMDB电影数据分析

df中有22个字段,分别为:
  movie_id : TMDB电影标识号
  title : 电影名称
  cast :演员列表
  director :导演
  budget :预算(美元)
  genres :风格列表,电影类型
  homepage :电影首页的 URL
  id :标识号
  original_language :电影语言
  original_title :电影名称
  overview :剧情摘要
  popularity :在 Movie Database 上的相对页面查看次数
  production_companies :制作公司
  production_countries :制作国家
  release_date :上映时间
  revenue :收入
  runtime :电影时长
  spoken_languages :口语
  status :状态
  tagline :电影的标语
  vote_average :平均评分

  vote_count :评分次数

(3)字段及缺失值处理

TMDB电影数据分析

TMDB电影数据分析

可以看出director、release_date、runtime分别有30、1、2个缺失值,这里只处理release_date、runtime的缺失值

TMDB电影数据分析

(三)数据分析及可视化

1.关于电影类型的分析

(1)获取电影类型

TMDB电影数据分析

TMDB电影数据分析

TMDB电影数据分析

TMDB电影数据分析

可以看出电影的类型主要是这20种

(2)转化日期格式

TMDB电影数据分析

(3)电影类型与数量的关系

(1)分类型判断每部电影属于的类型

TMDB电影数据分析

可以得到如果每行中包含哪个类型的就返回1,否则0

TMDB电影数据分析

(2)建立包含电影类型和年份的数据框

TMDB电影数据分析

TMDB电影数据分析

TMDB电影数据分析

可以看出电影的拍摄数量是从1992年开始大幅增加的

TMDB电影数据分析

统计每个类型每年的数量

TMDB电影数据分析

电影类型随时间变化的趋势(折线图)

TMDB电影数据分析

TMDB电影数据分析

可以看出Drama和War这两个类型是随时间波动比较大的,增长较快,现在仍比较热门

电影类型的数量关系(各个类型的总数量)

TMDB电影数据分析

各个电影类型的数量条形图

TMDB电影数据分析

TMDB电影数据分析

可以看出Drama和Comedy是数量最多的前两个

各个电影类型的比例饼图

TMDB电影数据分析

TMDB电影数据分析

Drama、Comedy、Thriller、Action这四个类型占了一半多比例,分别为18.9%,14.2%,10.5%,9.5%

(4)电影类型与利润的关系

  (1)电影类型与利润的关系

TMDB电影数据分析

TMDB电影数据分析

电影类型的利润条形图

TMDB电影数据分析

TMDB电影数据分析

可以看出Animation和Advanture,Fantasy这三个类型的电影是盈利最好的,而Foreign和TV Movie这两个是会亏损的

(2)观众更喜欢哪种类型的电影

TMDB电影数据分析

电影类型受欢迎的条形图

TMDB电影数据分析

TMDB电影数据分析

可以看出观众最喜欢的四中类型是Adventure、Animation、Science Fiction、Fantasy

2.电影票房与哪些因素相关,电影受欢迎程度的分析

(1)每年的票房统计

TMDB电影数据分析

TMDB电影数据分析

电影的票房也是从1992开始大幅度增长的

(2)电影预算与票房的关系

TMDB电影数据分析

TMDB电影数据分析

可以看出票房和预算是正相关性的,预算越高票房也越高,除去一些极值

(3)电影评分与票房的关系

TMDB电影数据分析

可以看出评分跟票房的相关性不是很强,评分跟票房大都集中在一个区域

(4)电影时长与票房的关系

TMDB电影数据分析

(5)评分与受欢迎的关系

TMDB电影数据分析

评分与受欢迎之间相关性不是很明显,但是大部分受欢迎度高的,基本是评分高的

(6)电影时长与受欢迎的关系

TMDB电影数据分析

观众喜欢的电影时长大多是90-160分钟

3.Universal Pictures和Paramount Pictures这两个公司产出电影的情况对比

TMDB电影数据分析

TMDB电影数据分析

(1)两家公司电影数量对比

TMDB电影数据分析

TMDB电影数据分析

这两个公司拍摄的电影是差不多的

(2)两家公司的电影岁时间变化的趋势对比

TMDB电影数据分析

TMDB电影数据分析

TMDB电影数据分析

TMDB电影数据分析

TMDB电影数据分析

可以看出随着时间的推移,Universal Pictures和Paramount Pictures公司的电影发行量呈现出增长趋势,尤其是在1992年后增长迅速

(3)两个公司的利润对比

TMDB电影数据分析

4.对电影导演,突出关键字,电影时长,电影产出地的情况进行分析

(1)对电影的导演进行分析

#direct=df['director'].value_counts()

#direct1=direct[:20]

*导演的拍摄数

TMDB电影数据分析

拍摄电影数最多的四位导演是Steven Spielberg 、Woody Allen 、Martin Scorsese、Clint Eastwood  分别为27、21、20、20

*评分前20的导演

TMDB电影数据分析

这些导演的评分基本都差不多的

*票房前20的导演

TMDB电影数据分析

票房最高的三位导演是Chris Buck、Kyle Balda、Lee Unkrich

(2)关键字分析

TMDB电影数据分析

TMDB电影数据分析

TMDB电影数据分析

可以看出关键字显示的主要是independent film、woman、murder这些字段

(3)电影时长的分析

TMDB电影数据分析

可以看出评分较高的电影时长集中于80-150分钟之间

(4)电影产地分析

TMDB电影数据分析

TMDB电影数据分析

TMDB电影数据分析

TMDB电影数据分析

可以看出美国是电影产出大国,超过一半比例

5.改编电影与原创电影的分析

(1)改编电影与原创电影数量对比

TMDB电影数据分析

TMDB电影数据分析

可以看出原创电影占绝大部分

(2)原创电影与改编电影预算、收入、利润的对比

TMDB电影数据分析

TMDB电影数据分析

TMDB电影数据分析

可以看出改编电影的预算略高于原创电影,但改编电影的票房收入和利润远远高于原创电影