最近我们被客户要求撰写关于回归、anova方差分析、相关性分析的研究报告,包括一些图形和统计输出。
在分析时,我们向客户演示了用R语言回归、anova方差分析、相关性分析可以提供的内容
第一节 研究背景与目的
《精品购物指南》是中国本土经营规模最大、最具影响力的时尚媒体品牌,1999年《精品购物指南》即进入全国报业广告十强,2005~2007连续三年获得国家新闻出版总署颁布的“全国生活服务类报纸竞争力10强”,并蝉联第一。2013年,《精品购物指南》被国家新闻出版广电总局评为“全国百强报纸”。
本研究使用对《精品购物指南》所做的一次调查结果作为本次案例分析的数据。试图分析目前阅读《精品购物指南》的群体特征,以及影响阅读《精品购物指南》的时间的因素,从而更好地对受众群体和市场做出分析。
第二节描述性统计
1. 数据预处理
删除缺失
2.绘制不同变量之间的关系
从每个变量的直方图可以看到变量的大概分布情况。绘制各个变量的饼图可以看到基本人口信息的各个取值的所占的百分比。
点击标题查阅往期内容
PYTHON链家租房数据分析:岭回归、LASSO、随机森林、XGBOOST、KERAS神经网络、KMEANS聚类、地理可视化
左右滑动查看更多
01
02
03
04
第三节 回归,方差分析与模型比较
1.相关性分析
查看性别和阅读《精品》的时间之间是否有相关关系
检验的结果是,由于P =0.5247> 0.05,因此在0.05的显署性水平下,接受原假设,认为两者之间不具有相关关系。
查看婚姻状况和阅读《精品》的时间之间是否具有相关关系
检验的结果是,由于P =0.08531> 0.05,因此在0.05的显署性水平下,所以接受原假设,认为两者之间不具有相关关系
查看受教育程度和阅读《精品》的时间之间是否具有相关关系
检验的结果是,由于P =0.4771>0.05,因此在0.05的显著性水平下,接受原假设,认为两者之间不具有相关关系。
2.回归分析
查看共线性关系
从结果看,没有相关系数大于0.6的不同变量。因此,变量间不存在共线性问题。
回归分析
从回归模型的结果来看,可以看被调查者的职业或身份,家人是否阅读《精品》`,以及豪华版内容是否吸引人等因素对被调查对象否阅读《精品》的时间有比较大的影响,p值小于0.05,因此该变量对被调查者选择去看报纸有显著的影响 。
3.模型筛选与比较
无常数项模型拟合
回归模型校正
利用qqPlot()函数提供的正态假设检验方法,它画出了在n-p-1个*度的t分布下的学生化残差图形,再配合Shapiro检验得出检测结果,而Shapiro样本量的大小范围 配合下图可以发现除了Providence,所有的点都离直线很近,都落在置信区间内,这表明与正态性假相符。
方差齐性
利用残差绘制曲线图并配合Durbin-Watson检验,此检验方法能够检测误差的序列相关性,再配合下表检验结果显著性为0.7604表示接受原假设,因此误差项独立性检验通过。
方差分析
所有变量的p值都小于0.05,说明在0.05的显著水平上,不同特征的被调查对象的阅读精品时间之间有明显差别。