数据可视化是数据挖掘非常重要的一个环节,它不单在查阅了解数据环节使用到,在整个数据挖掘的流程中都会使用到。
因为数据可视化不单可以形象地展示数据,让你对数据有更好的总体上的了解,而且还可以让你清晰的将自己的观点表述出来。因此不仅仅是在项目实施环节,在与客户谈需求或者写论文时,数据可视化也能帮到你。
但在介绍统计图的具体绘制之前,先来看看两个基本的图像绘制函数plot和legend。
绘图基础函数 - Plot在R语言中,plot是基本的用来绘制点和线段的函数。
最基本的调用方式为:plot (x轴数据, y轴数据)。然而plot还提供了很多参数供以优化:
pch:用于显示点的坐标,可以是一个字符,,也可以是0到25的一个整数。如:pch=“+”,pch=1
lty:线条类型。如:lty=2,lty=1
lwd:线条宽度。如:lwd=2
col:点,线,文本,填充区域的颜色设置,col.axis, col.sub, col.main分别对应坐标轴标注,子标题,主标题颜色。如col=2, col.sub=2
font:字体设置。同上
cex:字符扩张率,这个值表示期望字符(包括绘图字符)大小相对默认大小的比率。
xlim和ylim:表示x轴和y轴的长度,如:plot(passign, type="l", xlim=c(0,100))就表示x轴坐标是从0到一百。
add=TRUE 强制函数以低级绘图函数的形式运行,在当前的图上加载新的图形元素(仅适合于部分函数)。
axes=FALSE 禁止产生坐标轴|当你想用函数axis() 绘制个性化的坐标轴时非常有用。默认值是axes=TRUE,表示产生坐标轴
log:log="x",log="y", log="xy"让x 轴,y 轴或者两者都成为对数坐标轴,这对很多图都有效,但不是全部。
type= 参数type= 控制输出图形(特别是线条)的类型:
type="p" 只显示点(默认)
type="l" 显示线条
type="b" (同时)显示点和线
type="o" 将点覆盖在线上
type="h" 绘制从点到零轴(x 轴)的垂直线(高密度(high-density))
type="s"
type="S" 步阶图。第一种形式,垂直线顶部匹配数据点;第二种形式,底部匹配。
type="n" 图形不显示。但是坐标轴仍然显示(默认),并且坐标依然以数据设定。这个非常适合随后用低级绘图函数画图。
xlab=string/ylab=string:设定x 和y 轴的标签。可以用这些参数修改默认标签。默认标签常常是用于高级绘图函数中的对象的名字。
在plot函数的基础之上,可以画点,画线,添加文本。画点和画线的函数分别为points和lines函数,其调用方式比较简单,这里不再细说。
下面再来介绍另一个重要的绘图函数。
绘图基础函数 - legendlegend(x, y, legend, ...)用来在当前图的特定位置增加图例(legend)。标识字符,线条格式,颜色等都是被字符向量legend中的标签所注释。另外一个含有画图单位对应值的参数v (一个和legend 长度一致的向量)是必须给定的:
legend( , fill=v)
- 填充盒子的颜色
legend( , col=v)
- 点或者线条的颜色
legend( , lty=v)
- 线条样式
legend( , lwd=v)
- 线条宽度
legend( , pch=v)
- 标识字符(字符向量)
使用hist函数可以绘制出某列变量的直方图,效果如上图所示。它是保险索赔数据库中索赔金额的直方分布图。
该图的函数调用代码为:
hist函数有以下几个参数:
- 首参:数据向量
- density:直方图阴影系数。值越大阴影度越高。
- main:直方图标题名。如上图的"Histogram of Freq of Insurance$Claims"。
- xlab:横轴名
- ylab:纵轴名
- col,border:直方图的颜色以及边界颜色。可自定义色调风格,但是与density参数互斥。
- break:分组间距
该图是保险索赔数据集中索赔人年龄的条形分布图。