MovieLens电影数据分析

时间:2023-12-12 10:26:56

下载数据包

  链接:https://grouplens.org/datasets/movielens/1m/

  解压:MovieLens电影数据分析

  四个文件分别是数据介绍,电影数据表,电影评分表,用户表

进行电影数据分析

进入ipython,新建一个项目

从用户表读取用户信息

MovieLens电影数据分析

  警告原因,C语言实现的引擎不支持某些特性,最终用Python引擎实现

 打印列表长度,共有6040条记录

MovieLens电影数据分析

  查看前五条记录

MovieLens电影数据分析  其中age对应的年龄段在readme表中有对应说明

  同样方法,导入电影数据表,电影评分表

MovieLens电影数据分析

  查看导入数据数量,评分表为1000209条,电影数据表有3883条

MovieLens电影数据分析

  查看评分表前五条数据

MovieLens电影数据分析

  查看电影数据前五条

MovieLens电影数据分析

  导入完成之后,我们可以发现这三张表类似于数据库中的表

  要进行数据分析,我们就要将多张表进行合并才有助于分析

  使用merge函数合并  

MovieLens电影数据分析

  先将users与ratings两张表合并再跟movied合并

  查看合并后的表长度和前十条数据

MovieLens电影数据分析

  合并后的每一条记录反映了每个人的年龄,职业,性别,邮编,电影ID,评分,时间戳,电影信息,电影分类等一系列信息

  比如我们查看用户id为1的所有信息

MovieLens电影数据分析

 查看每一部电影不同性别的平均评分

  运用数据透视

  MovieLens电影数据分析

  表中结构为每一部电影男性跟女性的评分平均值

  查看电影分歧最大的那部电影

  加一列评分差值

MovieLens电影数据分析

  按照diff排序

MovieLens电影数据分析

  查看评分最多的电影

MovieLens电影数据分析

  查看最热门电影

MovieLens电影数据分析

  查看最高分电影

  先算出每部电影平均得分

MovieLens电影数据分析

  对电影平均得分排序

MovieLens电影数据分析

  当然,从严格意义上仅仅通过单一条件电影评分高低我们还不能判断这部电影是否是一部真正的好电影,因为评分均分跟观影人数也有关系

  先按照热度找出热度高的电影,有207部电影符合条件,然后我们可以在评分数据透视中筛选出符合条件的数据

MovieLens电影数据分析

MovieLens电影数据分析