reshape2包--R高效数据处理包

　　介绍如何使用reshape2包将宽型数据转换成长型数据，将长型数据转换成宽型数据。Reshape2是Hadley Wickham开发和维护的。

1.长数据VS宽数据

宽型数据：每列代表一个不同的变量。例如datasets包中的mtcars数据集就是宽型数据：

mt=mtcars
View(mt)

reshape2包--R高效数据处理包

长型数据：一列包含了所有可能的变量，另一列是对应的取值。长数据有一列数据是变量的类型，有一列是变量的值。长数据不一定只有两列。ggplot2需要长类型的数据，plyr也需要长类型的数据，大多数的模型(比如lm(), glm()以及gam())也需要长数据。上面的数据可以用长型数据来表示：

# Long format
  variable value
      mpg  21.0
      mpg  21.0
      mpg  22.8
      mpg  21.4
      mpg  18.7
      mpg  18.1
...
    variable value
     carb
     carb
     carb
     carb
     carb
     carb

　　长型数据可以包含两个以上的列，尤其是提供ID变量的时候。

　　在实际应用中，宽型数据更具可读性，长型数据则更适合做分析。因此，知道如何在它们之间进行转换非常有用。

reshape2包中两个主要的函数是：

melt——将宽型数据融合成长型数据
cast——将长型数据转成宽型数据

2.melt---将宽型数据融合成长型数据

定义及参数说明

melt(data, ..., na.rm = FALSE, value.name = "value")

melt(data,id.vars,measure.vars,variable.name="variable",..,na.rm=FALSE,value.name="value")

data 需要转换的数据集
na.rm Should NA values be removed from the data set? This will convert explicit missings to implicit missings
value.name 用于存储值的变量
id.vars：每个变量在结果中占一列
measure.vars：被当成观测值的列变量，列变量名称和值分别组成"variable"和"value"两列

　　接下来，在datasets包中的mtcars数据集上进行操作。它一开始是上面展示的宽型数据。我们要把它融合成下面的长型数据：

#给mtcars增加一列car，其值为mtcars的行名

mtcars$car <- rownames(mtcars)

#将mtcars转换成长型数据

mtcarsMelt <- melt(mtcars)

head(mtcarsMelt)

　　注：译者在R里得到的是melt自动选取car作为ID变量，原文是选取car和cyl作为ID变量。要得到相同结果只需在参数id.vars中指定相应变量即可。

我们可以通过参数variable.name和value.name分别对variable和value列重命名。例如，我们想对所有的汽车根据它的汽缸数和齿轮数做分类。可以像下面这样：

mtcarsMelt <- melt(mtcars, id.vars = c('cyl', 'gear'), variable.name = 'carVariable', value.name = 'carValue')

head(mtcarsMelt)

reshape2包--R高效数据处理包

通常，使用变量组合来唯一的识别每个数据点个好办法，但是这里有多个点的cyl和gear组合值却是相同的，这不是好的办法。当你需要把数据转回宽型数据时会有点问题了（下面会看到）。

melt使用举例---ggplot2绘图：

aq <- melt(airquality,
           var.ids=c("Ozone", "Month", "Day"),
           measure.vars=c(:),
           variable.name="V.type",
           value.name="value")
head(aq)
View(aq)
library(ggplot2)
aq$Month <- factor(aq$Month)
p <- ggplot(data=aq, aes(x=Ozone, y=value, color=Month)) + theme_bw()
p <- p + geom_point(shape=, size=) + geom_smooth(aes(group=), fill="gray80") + facet_wrap(~V.type, scales="free_y")
p

reshape2包--R高效数据处理包

3.cast---将长型数据转成宽型数据

dcast(data, formula, ..., value.var = guess_value(data))

formula: 以~为分割，左边的变量在整形后依然作为变量，右边的变量的取值拆为新的变量名，e.g. diet + chick ~ time

value.var: 新的变量名下的取值，需要加双引号

　　cast函数的作用是将长型数据转成宽型数据。cast函数的两种主要类型是：

dcast——返回的结果是一个数据框
acast——返回的结果可以是向量、矩阵或者数组

　　由于数据框对象是最常见的，我将演示如何使用dcast。下面展示的是长型数据转回成宽型数据：

mtcarsMelt <- melt(mtcars)
mtcarsCast <- dcast(mtcarsMelt, car ~ variable)
head(mtcarsCast)

reshape2包--R高效数据处理包

　　dcast函数通过一个式子来把数据转成宽型数据。在本篇译文中，由于我在R上自动的到ID变量只有car，所以我给出的式子是car ~ variable。这里car是ID变量，variable变量列的名称。要想跟原文一样只需在melt时指定id.vars参数即可。

如果我们指定cyl和gear作为ID变量融合数据后，再转回宽型变量时，会得到如下所示的结果：

mtcars$car <- rownames(mtcars)
mtcarsMelt <- melt(mtcars)
mtcarsCast <- dcast(mtcarsMelt, cyl + gear ~ variable)
head(mtcarsCast)

reshape2包--R高效数据处理包

　　会得到警告信息：Aggregation function missing: defaulting to length。数据集显示的是每个cyl和gear组合的总的观测数。这是因为dcast函数不能唯一标识每个数据点。然而，它还有其他用处。例如，我们通过如下所示的fun.aggregate（如何聚合）参数可以得到每个cyl和gear组合值所对应的所有变量的平均值。

mtcars$car <- NULL
mtcarsMelt <- melt(mtcars, id.vars = c('cyl', 'gear'))
mtcarsCast <- dcast(mtcarsMelt, cyl + gear ~ variable, fun.aggregate = mean)
head(mtcarsCast)

reshape2包--R高效数据处理包

View(mtcarsMelt)

reshape2包--R高效数据处理包

　　这里，删除了car列。这是因为不希望在mtcarsMelt的value列里存在非数值型数据，否则会得到错误。可以看到cyl的取值levels有4,6,8,而gear的取值有3,4,5，于是便可以取cyl与gear的组合后的项求其平均值。需要告诉dcast如何聚合(aggregate)这些数据，比如取均值(mean)，计算中位数(median)，或者简单的求和(sum)。比如，在这里，我们简单的计算下均值，同时通过na.rm = TRUE删除NA值。

reshape2包--R高效数据处理包

melt

　　使用场景：当数据框的几个列可以被归纳为某一个大类别时：比如列1为高速路，列2为快速路，列3为主要道路，这三列可以归结为一列道路等级。

案例：将表2变为表1

　　table1 <- melt(table2, id.vars=c("车辆"), measure.vars=c("高速覆盖里程", "快速路覆盖里程", "主要道路覆盖里程"), variable.name="道路等级", value.name="日均覆盖里程")

dcast

　　使用场景：数据框的某一个列可以拆分为多个小类别时：比如道路等级可以拆分为三列：高速路，快速路，主要道路；函数还需要指定拆出来的三列的值来自哪里。

案例：将表1变为表2

　　table2 <- dcast(table1, 车辆~道路等级，value.var="日均覆盖里程")

同样可以看到下面的例子：

reshape2包--R高效数据处理包

本文链接：http://www.cnblogs.com/homewch/p/5778409.html

秒客网

reshape2包--R高效数据处理包

1.长数据VS宽数据

2.melt---将宽型数据融合成长型数据

3.cast---将长型数据转成宽型数据

相关文章