昨天头疼的不行所以学的很少,今天要多学一些把昨天的补回来,因为没见到韩先生所以心情没有昨天帅气了!
数据直观分析
用到上课时最常见的例子,本来优盘上是有数据的但找不见优盘liao,就现去国家统计局找的数据,非常新鲜
-
首先数据输入,在工作表中选取A1:I32,拷贝之。
R中输入X=read.table(‘clipboard’,header=T);X 这是我最喜欢的一种数据输入方式。 -
直观分析:图示法
对上面的数据直接做条图的意义不大,通常需要对其统计量(如均值、中位数等)做直观分析。
按行做均值条图
barplot(apply(X,1,mean))
图中可以看出横坐标显示的并不完整需要作出调整。函数如下
barplot(apply(X,1,mean),las=3) 查了一下las的用法没找到,自己在R中试了一下当设置las=1时和以前不完整的图一样, las=2时和las=3时横坐标一样只是纵坐标有数值范围的差异。
眼睛花了,感觉并不美观,慢慢探索怎么可以更美观一些?
按列做均值图条形
barplot(apply(X,2,mean))
调整颜色让它漂亮点
barplot(apply(X,2,mean),col=1:8) 需要学习一下R语言中用到的英文缩写
试了一下随着col赋的数值颜色的变化
按列做中位数条形图
barplot(apply(X,2,median),col=1:8)
刚刚没注意横坐标,需要修改如上图中代码。
按列做均值饼图
pie(apply(X,2,mean))
箱尾图 -
用途:Tukey提出的箱尾图由箱子和其上引出的两个尾组成,这种图用来表示在一定的时间内一个班成绩的变化、物体位置变化、原材料的变化、产品标准的变化等。
-
特征:箱尾图可以比较清晰的表示数据的分布特征,它由4部分组成。
-
R语言函数:boxplot(X,…)
按列做垂直箱线图
分析箱线图:
1.箱子中间的一条线,是数据的中位数,代表了样本数据的平均水平
2.箱子的上下限,分别是数据的上四分位数和下四分位数,这意味着箱子包含了50%的数据,因此箱子的宽度在一定程度上反映了数据的波动程度。
3.在箱子的上方和下方,又各有一条线,代表着最大值和最小值,有一些不在箱子部分的小圆点是数据的异常值。
箱线图是针对连续型变量的,解读时候重点关注平均水平、波动程度和异常值。当箱子被压的很扁,或者有很多有异常值的时候试着做对数变换。当只有一个连续型变量时并不适合箱线图,直方图最好。箱线图最有效的使用途径是作比较,配合一个或者多个定性数据画分组箱线图。
水平箱线图
我明白las的用法了:las=1是原始图不改变横坐标也不改变纵坐标,las=2全部显示纵坐标,las=3全部显示横坐标 yeah还真是小白
星相图 -
用途:
它将每个变量的各个观察单位的数值表示为一个图形,n个观察单位就有n个图,每个图的每个角表示每个变量。 -
特征:
星相图是雷达图的多元表示形式 -
R语言函数
stars(X,draw.segments=FALSE,key.loc=NULL,…)
简单星相图
带图例的星相图
通过对代码c(17,7)的改变发现括号里的数是改变图例的位置的。
加颜色:
变量间的关系分析
eg:学生的身高体重数据
直观分析:图示法(通过散点图)
有线性关系但不是完全的直线关系。接下来计算相关系数,来看数据的相关关系
相关系数计算函数cor()的用法:
cor(x,y=NULL,method=c(“pearson”,“kendall”,spearman"))
其中,x数值向量、矩阵或数据框,y空或数值向量、矩阵或数据框
method计算方法,包括“pearson”、“kendall”、“spearman”三种,默认pearson
计算pearson相关系数:cor(x,y)
相关性很高。
相关系数的假设检验:cor.test(x,y) 得到的结果p值<0.05可以拒绝原假设。原假设是相关系数=0
df是*度 ,点估计0.9436552, 95%的区间估计(0.806,0.984)
得出结论:相关系数显著,身高体重呈现正的线性关系。
简单线性回归分析:
回归分析研究两变量间的依存关系,变量区分出自变量和因变量,并研究确定自变量和因变量间的具体关系方程形式。分析中所形成的这种关系成为回归模型,其中以一条直线方程表明两变量依存关系的模型叫单变量线性回归模型。其主要步骤包括:建立回归模型,求解回归模型中的参数,对回归模型进行检验等。
建立直线回归方程:
b=lxy(x,y)/lxy(x,x)可以换成图中的函数按着公式写的
a=mean(y)-b*mean(x)
c(a=a,b=b)
画出回归直线
图中错误提示 figure margins too large 是画布太小导致不能绘图,把绘图框调大即可。
回归系数的假设检验:
方差分析或t检验,方差分析是对回归模型的检验,他检验对每个回归系数的检验。
eg:我国自1999-2018年的税收收入和财政收入的关系
拟合模型:
回归系数就计算出来了,a=-2895.816 b=1.209 模型就可以写出来了
作回归直线 plot(y~x,data=d3.3)
模型的检验:
方差分析
由于p<0.05,于是α=0.05水平下拒绝原假设,即本例回归系数有统计学意义,x与y间存在直线回归关系。
回归系数t检验
和方差分析结论一致。