kaggle入门项目:Titanic存亡预测(三)数据可视化与统计分析

时间:2021-11-17 11:36:58

---恢复内容开始---

原kaggle比赛地址:https://www.kaggle.com/c/titanic

原kernel地址:A Data Science Framework: To Achieve 99% Accuracy

Step 4: Perform Exploratory Analysis with Statistics

使用描述性与图表分析数据,重点在于数据可视化,突出数据类别与不同feature的关联性

简单的groupby()获得不同feature对于生存率的影响

kaggle入门项目:Titanic存亡预测(三)数据可视化与统计分析

箱型图与柱状图绘制。

箱型图:plt.boxplot(),清晰表示数据的集中程度、离群点、中位数的位置。

kaggle入门项目:Titanic存亡预测(三)数据可视化与统计分析

柱状图plt.hist(),表示每个feature的不同值/分类的Survived数量。

kaggle入门项目:Titanic存亡预测(三)数据可视化与统计分析

seaborn 的barplot展示的是某feature的平均值,是数值变量的集中趋势

kaggle入门项目:Titanic存亡预测(三)数据可视化与统计分析

pointplot():数值变量的中心趋势估计,并使用误差线提供关于该估计的不确定性的一些指示。

kaggle入门项目:Titanic存亡预测(三)数据可视化与统计分析

violinplot():小提琴图显示数据分布及其概率密度。

kaggle入门项目:Titanic存亡预测(三)数据可视化与统计分析

因为性别因素对是否生还造成很大影响,因此我们将性别和其他feature联合绘图比较,看看是否有什么新发现:

kaggle入门项目:Titanic存亡预测(三)数据可视化与统计分析

然后是其他feature的比较图:

kaggle入门项目:Titanic存亡预测(三)数据可视化与统计分析

不同船舱等级和性别对生还率的影响:kaggle入门项目:Titanic存亡预测(三)数据可视化与统计分析

不同年龄的连续生还曲线:

kaggle入门项目:Titanic存亡预测(三)数据可视化与统计分析

直方图比较性别、年龄、船舱等级:

kaggle入门项目:Titanic存亡预测(三)数据可视化与统计分析

微妙的看出低等仓与中等舱的男性大批死亡。头等舱的女性几乎全部生还。

pairplot()多变量图将所有的feature交叉绘图,隐含feature之间的关联性。

kaggle入门项目:Titanic存亡预测(三)数据可视化与统计分析

heatmap()热力图,反应feature之间的关联度:

kaggle入门项目:Titanic存亡预测(三)数据可视化与统计分析