一、数据描述
1.1、数据集描述
movies数据框包含45456行,有共10列,有adult,belongs_to_collection,budget,genres,homepage等24个,对应每个电影的的一些特征。
type:类型
director:导演
country:国家
keyword:关键字
score:评分
belongs_to_collection:归属
popularity:声望
revenue:收入
vote_average:平均投票
vote_count:投票数
1.2、数据展示
1.3、项目操作流程
1.4、导入数据
二、问题提出
(1)不同国家电影产量是否存在差异?若有,电影产量最大的是哪个国家,占多少份额?
(2)哪些国家制作的电影在平均水平上更倾向获得观众的高评分?
(3)电影的类型构成是怎么样的?电影占比较大的是哪些类型的电影?
(4)不同类型电影的评分分布情况,哪些类型的电影更倾向于获得观众好评?
三、数据清洗和预处理
处理完的表格:
四、各变量相关性数据分析与可视化
(1)、不同国家电影产量是否存在差异?若有,电影产量最大的是哪个国家,占多少份额?数据显示,电影的产地可能不止一个国家,对于多产地的电影,对于其中任一产地国都不算一部严格意义上的电影,所以此项研究的范围仅限于单产地电影的分析。
(2)、哪些国家制作的电影在平均水平上更倾向获得观众的高评分?
(3)、电影的类型构成是怎么样的?电影占比较大的是哪些类型的电影?
在所有电影中,戏剧电影、喜剧电影、恐怖电影比较受制片人青睐,三种类型的市场份额依次递减。
(4)、不同类型电影的评分分布情况,哪些类型的电影更倾向于获得观众好评?
#先获取所有电影类型列表
genres_full_data=pd.Series(list_).value_counts().sort_values(ascending=False)
genres_full_data_=pd.DataFrame({"genres":genres_full_data.index
,"num":genres_full_data}).sort_values(by=["genres"]).drop("")
历史片、记录片、战争片的电影类型更倾向于获得观众的好评,其中,对于历史类型的电影,从图形上来说它的箱形较扁,说明这种系列的电影的得分较为集中,即历史片得高分得概率较大;而记录片电影的箱形较长,说明这种系列的电影相对于历史片而言,得分较为分散,存在高分电影,也存在得分不怎么高的电影,它的中位线更靠近四分之三分位线,高分部分的得分比低分部分的得分集中一些.
(5)、电影关键字-词云图
五、主要结论
(1)在电影制作数量上,美国以88%的比例排名第一;
(2)按电影评分平均分:巴基斯坦>阿根廷>爱尔兰;
(3)戏剧电影、喜剧电影、恐怖电影比较受制片人青睐;
(4)历史片、记录片、战争片的电影类型更倾向于获得观众的好评;
(5)演员出演数量上,Samuel L.Jackson主演的电影数量超过60部,排名第一;
(6)电影制作数量上,Steven Spielberg以27部排名第一。
以上就是围绕着关于电影数据集的若干问题展开的数据可视化分析全过程,后面有其他的分析方向,再补充吧。