R语言支持的数据结构

时间:2021-12-03 00:54:38

基本数据类型

  • 数值型:数据型主要分为整数型和双精度型,默认是双精度型数据。可以写成整数形式、小数形式、科学计数法。
  • 字符型:双引号或单引号括起来的字符串
  • 逻辑型:取值只能为T(TRUE)或F(FALSE)
  • 复数型:形如a+bi的数据
  • 原始型:二进制数据
  • 日期型:Date或POSIXc。

数据对象

向量

向量是由相同基本数据类型的元素组成的序列,相当于一维数组。 向量是用于存储数值型、字符型或逻辑型数据的一维数组。

创建向量:

  • 创建向量使用函数c(),该函数可以有任意多个参数,它会将这些参数首尾相连。 示例:创建a是数值型向量,b是字符型向量,而c是逻辑型向量
a <- c(1,2,4,5,8)
b <- c("one","two","three")
c <- c(TRUE,FALSE,TRUE,TRUE,FALSE)

注意,单个向量中的数据必须拥有相同的类型或模式(数值型、字符型或逻辑型)。同一向量中无法混杂不同模式的数据。

  • past():将自变量对应的元素连成一个字符串,长度不相同时,较短的向量会被重复利用。
x <- paste("i",1:5,sep = ",")
x
  • assign():对向量进行赋值
assign("i",c(11,22,33,44))
i

生成规则序列

示例:

x <- 1:5
x

y <- 5:1
y

2* 1:5

示例:seq(from,to,by)

seq(1,9,2)
seq(-1,-10,-1)

示例:seq(from,by,length)

seq(2,by=2,length=5)

重复一个对象 示例:rep(x,times,….)

rep(c(1,2,3),4) #1 2 3 1 2 3 1 2 3 1 2 3
rep(c(1,2,3),each=4)  #1 1 1 1 2 2 2 2 3 3 3 3
rep(1:3) # 1 2 3
rep(2,4) #2 2 2 2
rep(1:4,rep(3,4)) # 1 1 1 2 2 2 3 3 3 4 4 4
rep(1:4,1:4)   #1 2 2 3 3 3 4 4 4 4

向量运算

向量的乘法、除法和乘方运算是对应向量的每个分量做乘法、除法和乘方 示例:

x <- c(1,3,5,7)
y <- c(2,4,6,8)
x+y
x-y
x*y
x/y
x^y

常见函数

函数 功能 函数 功能
length 求元素的个数
mode 返回向量的数据类型
min 向量的最小值 max 向量的最大值
range 向量的范围
which.min 在第几个分量求得最小值 which.max 在第几个分量求得最大值
mean 均值 median 中位数
var 方差 sd 标准差
sort 顺序排序 rev 逆序排序
rank 求数据排序的相对位置
prod 求向量连乘的积
append 添加
replace 替换
match 匹配 pmatch 部分匹配
all 判断所有 any 判断部分

示例:

x <- c(1:10)
x
length(x)
mode(x)
range(x)
which.max(x)
which.min(x)
mean(x)
median(x)
var(x)
sd(x)
x <- c(1,8,2,4,7,3,5,9)
sort(x)
rev(x)
rank(x)
prod(x)
append(x,1:10,after = 4)

向量索引

示例:

x <- c(1:7)
x
x[1]
x[length(x)]
x[-3] # 下标取负数,表示删除指定位置处的元素
x

数组

数组是类型相同的多个元素的集合 可以将一维数组看成向量,将二维数组看成矩阵 定义数组的语法: array(data=NA,dim=length(data),dimnames=NULL)

示例:生成维数为2,3,4的三维数组

array(1:24,c(2,3,4))

示例:dim():返回数组的维数

a <- array(1:24,c(2,3,4))
dim(a)

示例:dim()将向量转换为数组或矩阵

a <- array(1:16)
a
dim(a) <- c(2,2,4)
a

因子

分类时,经常要把数据分成不同的水平或因子,比如学生的性别包含男女两个因子。 因子代表变量不同可能的水平,在统计分析中十分有用。 语法: factor(x=character(),levels,labels=levels,exclude=NA,ordered=is,ordered(x)) 其中:

  • levels:因子的水平
  • labels:水平的名字
  • exclude:在x中需要排出的水平
  • ordered:决定的因子的水平是否有序 示例:
x <- c(1,2,1,1,1,2)
y = factor(x)
y

示例:生成有序因子

x <- c("a","b","b","c","d","c","a","e","a")
y <- ordered(x,levels=c("e","d","c","b","a"))
y

列表

向量、矩阵、数组中的元素必须相同。 列表中元素的类型可以不相同。 有点像C语言中的结构体、Python中的字典。

语法: list(变量1=分量1,变量2=分量2,……)

示例:

a <- 1001
b <- "zhangsan"
c <- c(78:81)

x <- list(a,b,c)
x

示例:

a <- c(1,2,3,4,5)
b <- c("nan","nan","nv","nan","nv","nan")
c <- c(TRUE,TRUE,FALSE,FALSE,FALSE)
x <- list(aa=a,bb=b,cc=c)
x



# 访问第一个元素
# 列表的索引
x[[1]] 
x$aa
x$bb

# 绑定列表 attach()
attach(x)
aa
bb

# 转化为向量 unlist()
y <- unlist(x)
y
y[1]
y[3]
y[7]

示例:

a <- c(1:5)
b <- c(77,33,22,44)

x <- list(a=a,b=b)
x
# 计算操作
# lapply():返回一个列表
# sapply():返回一个向量或者矩阵

lapply(x, sum)
lapply(x, sum)[[1]]
lapply(x, sum)$a

sapply(x, sum)
sapply(x, sum)[1]

矩阵

矩阵是将元素按行和列的形式排列,形成二维数组的形式。 定义矩阵的语法: matrix(data=NA,nrow=1,ncol=1,byrow=FALSE,dimnames=NULL) 其中:

  • data:数据元素
  • nrow:行数
  • ncol:列数
  • byrow:指默认按列排列
  • dimnames:给定行和列的名称 示例:
matrix(1:30,nrow=6,dimnames = list(c(1:6),c("one","two","three","four","five")))

结果:

示例:将一个nm的矩阵转为mn的矩阵

a <- matrix(1:12,nrow = 3)
a
t(a)

结果:

示例:矩阵的加减乘除

a <- matrix(1:6,nrow = 2)
a
b <- matrix(6:11,nrow = 2)
b

a+3
a*3
a^3

a+b
b-a


c <- matrix(8:13,nrow = 3)
c

a %*% c  # 矩阵相乘
crossprod(a,b)

数据框

数据框(Data Frame)是一种矩阵形式的数据,它由行和列组成。 数据框中不同列数据的类型可以不同。而矩阵是必须相同的。 数据框的每一列都有列名(必须),可以通过这个列名访问指定列的数据。每一行也可以指定行名。如果不指定行名,默认使用从1开始的Sequence来标识每一行。 数据框的要求:

  • 数据框的分量必须是向量、因子、数值矩阵、列表或者其他数据框
  • 列表、数据框和矩阵为新的数据框提供了尽可能多的变量,因为他们各自有各自的列、元素或变量
  • 数据框中以变量出现的向量结构必须长度一致,矩阵结构也必须有同样的行数
  • 因子、数值向量和逻辑值保持原有的格式,而字符向量会被强制转换成因子,并且他们的水平就是微量中出现的独立值

生成数据框的语法 data.frame(…,row.names=NULL,check.rows=FALSE,…)

示例:

name <- c("zhangsan","lisi","wanger","mazi")
sex <- c("nan","nv","nv","nv")
age <- c(18,22,33,17)

df <- data.frame(name,sex,age)
df
class(df)  # 查看类型
df[1,3]
# 通过索引访问
df$sex  # 获取指定列的数据
df$name[2]

# 添加新列
df$score <- c(77:80)
df

# 查询满足条件(score==80)的数据
df[which(df$score==80),]

示例:

# 定义矩阵
m <- matrix(c(1:12),nrow = 3)
m
# 将矩阵转换成数据框
mf <- as.data.frame(m)
mf

示例:连接:merge()

name <- c("zhangsan","lisi","wanger","mazi")
sex <- c("nan","nv","nv","nv")
age <- c(18,22,33,17)
score <- c(18,27,19,18)
m1 <- data.frame(name,sex,age,score)
m1

# 函数参数要使用等号=,不要使用<-
m2 <- data.frame(name = name,weight = c(67:70),age = c(18,19,17,20))
m2


# 连接:查找age相同的
merge(m1,m2,by.x = "age",by.y = "age")

示例:合并:

  • rbind():要求列数相同
  • Cbind():要求行数相同

示例:

name <- c("zhangsan","lisi","wanger","mazi")
sex <- c("nan","nv","nv","nv")
age <- c(18,22,33,17)
score <- c(18,27,19,18)
m1 <- data.frame(name,sex,age,score)
m1

m2 <- data.frame(name = name,weight = c(67:70),age = c(18,19,17,20))
m2

cbind(m1,m2)

示例:

m <- data.frame(weight = c(67:70),age = c(18,19,17,20))
m
# 对每一列求和
lapply(m, sum) # 返回的是一个列表

# 
sapply(m, sum) # 返回的是一个向量