数据结构（c++版）第四章字符串和多维数组

一、字符串

1、字符串的定义

串：零个或多个字符组成的有限序列。

串长度：串中所包含的字符个数。

空串：长度为0的串，记为：" "。

非空串通常记为： S=" s1 s2 …… sn "

其中：S是串名，双引号是定界符，双引号引起来的部分是串值，si（1≤i≤n）是一个任意字符。

子串：串中任意个连续的字符组成的子序列。

主串：包含子串的串。

子串的位置：子串的第一个字符在主串中的序号。

2、字符串的比较

串的比较：通过组成串的字符之间的比较来进行的。

给定两个串：X="x1x2…xn"和Y="y1y2…ym"，则：

（1）当n=m且x1=y1，…，xn=ym时，称X=Y；

（2）当下列条件之一成立时，称X＜Y：

~ n＜m且xi=yi（1≤ i≤n）；

~存在k≤min(m,n)，使得xi=yi(1≤i≤k-1)且xk＜yk。

（按字典比较）

字符串的存储结构

表示串的长度：

方案1：用一个变量来表示串的实际长度。

方案2：在串尾存储一个不会在串中出现的特殊字符作为串的终结符，表示串的结尾。

方案3：用数组的0号单元存放串的长度，从1号单元开始存放串值。

模式匹配

模式匹配：

给定主串S="s1s2…sn"和模式T="t1t2…tm"，在S中寻找T的过程称为模式匹配。如果匹配成功，返回T在S中的位置；如果匹配失败，返回0。

朴素的模式匹配算法：

基本思想：从主串S的第一个字符开始和模式T的第一个字符进行比较，若相等，则继续比较两者的后续字符；否则，从主串S的第二个字符开始和模式T的第一个字符进行比较，重复上述过程，直到T中的字符全部比较完毕，则说明本趟匹配成功；或S中字符全部比较完，则说明匹配失败。

伪代码：

1. 在串S和串T中设比较的起始下标i和j；

2. 循环直到S或T的所有字符均比较完

2.1 如果S[i]=T[j]，继续比较S和T的下一个字符；

2.2 否则，将i和j回溯，准备下一趟比较；

3. 如果T中所有字符均比较完，则匹配成功，返回匹配的起始比较下标；否则，匹配失败，返回0；

朴素的模式匹配算法BF：

intBF(char S[ ], char T[ ])

{

i=0;j=0;

while(S[i]!='\0'&&T[j]!='\0')

{

if(S[i]==T[j]) {

i++;j++;

}

else {

i=i-j+1;j=0;

}

if(T[j]=='\0') return (i-j+1);

elsereturn 0;

}

设串S长度为n，串T长度为m，在匹配成功的情况下，考虑两种极端情况：

（1）最好情况：不成功的匹配都发生在串T的第1个字符。

设匹配成功发生在si处，则在i-1趟不成功的匹配*比较了i-1次，第i趟成功的匹配共比较了m次，所以总共比较了i-1+m次，所有匹配成功的可能情况共有n-m+1种，则：（即共比较了i趟，前i-1趟均只比较了1次，而第i趟比较了m次）。所以，最好情况下的时间复杂度为：O(n+m).

（2）最坏情况：不成功的匹配发生在串T的最后一个字符。

设匹配成功发生在si处，则在i-1趟不成功的匹配*比较了(i-1)×m次，第i趟成功的匹配共比较了m次，所以总共比较了i×m次。所以，最坏情况下的时间复杂度为O(n*m).

KMP算法：

基本思想：主串不进行回溯

结论： i可以不回溯，模式向右滑动到的新比较起点k，并且k仅与模式串T有关！

抓住部分匹配时的两个特征：设模式滑动到第 k个字符

（1）则T[0]~T[k-1] = S[i-k]~S[i-1]

（2）则T[j-k]~T[j-1] = S[i-k]~S[i-1]

两式联立可得：T[0]~T[k-1] = T[j-k]~T[j-1]

计算next[j]（T[i]对应的k值，0<=j<=m）的方法：

（1）当j=0时，next[j]=-1；

next[j]=-1表示不进行字符比较

（2）当j>0时，next[j]的值为：模式串的位置从0到j-1构成的串中所出现的首尾相同的子串的最大长度。

（3）当无首尾相同的子串时next[j]的值为0。

next[j]=0表示从模式串头部开始进行字符比较

KMP算法的伪代码描述：

1. 在串S和串T中分别设比较的起始下标i和j；

2. 循环直到S或T的所有字符均比较完

2.1 如果S[i]=T[j]，继续比较S和T的下一个字符；否则

2.2 将j向右滑动到next[j]位置，即j=next[j]；

2.3 如果j=-1，则将i和j分别加1，准备下一趟比较；

3. 如果T中所有字符均比较完毕，则返回匹配的起始下标；否则返回0；

二、多维数组

1、数组的定义

数组是由一组类型相同的数据元素构成的有序集合，每个数据元素称为一个数组元素（简称为元素），每个元素受n(n≥1)个线性关系的约束，每个元素在n个线性关系中的序号i1、i2、…、in称为该元素的下标，并称该数组为n维数组。

数组的特点：

（1）元素本身可以具有某种结构，属于同一数据类型；

（2）数组是一个具有固定格式和数量的数据集合。

例：

元素a22受两个线性关系的约束，在行上有一个行前驱a21和一个行后继a23，在列上有一个列前驱a12和和一个列后继a32。

二维数组是数据元素为线性表的线性表。

数组的基本操作：

⑴读操作：给定一组下标，读出对应的数组元素；

⑵写操作：给定一组下标，存储或修改与其相对应的数组元素。

这两种操作本质上只对应一种操作——寻址，即根据一组下标定位相应的数组元素。

2、数组的存储结构与寻址

设一维数组的下标的范围为闭区间［l，h］，每个数组元素占用 c 个存储单元，则其任一元素 ai的存储地址可由下式确定： Loc(ai)＝Loc(al)＋(i－l)×c。

二维数组常用的映射方法有两种：

按行优先：先行后列，先存储行号较小的元素，行号相同者先存储列号较小的元素。

按列优先：先列后行，先存储列号较小的元素，列号相同者先存储行号较小的元素。

按行优先aij在一维数组中的下标为：（i-1）*n+(j-1)。

三、矩阵的压缩存储

特殊矩阵：矩阵中很多值相同的元素并且它们的分布有一定的规律。

稀疏矩阵：矩阵中有很多零元素。

压缩存储的基本思想是：

⑴为多个值相同的元素只分配一个存储空间；

⑵对零元素不分配存储空间。

对称矩阵的压缩存储

对称矩阵的特点：

在一个n阶方阵中，有aij=aji(1<=i,j<=n)。

对于下三角中的元素aij（i≥j），在数组SA中的下标k与i、j的关系为：k＝i×(i-1)/2＋j -1。

上三角中的元素aij（i＜j），因为aij=aji，则访问和它对应的元素aji即可，即：k＝j×(j-1)/2＋i -1 。

三角矩阵的压缩存储

只存储上三角（或下三角）部分的元素。

下三角矩阵中任一元素aij在数组SA中的下标k与i、j的关系为：当i>=j时，k=i×(i-1)/2＋j -1;当i<j时，k=n(n+1)/2。

上三角矩阵中任一元素aij在数组SA中的下标k与i、j的关系为：当i>=j时，k=(2n-i+2)×(i-1)/2＋j -i;当i<j时，k=n(n+1)/2。

对角矩阵的压缩存储

对角矩阵：所有非零元素都集中在以主对角线为中心的带状区域中，除了主对角线和它的上下*干条对角线的元素外，所有其他元素都为零。

对于一个m*n的w对角矩阵（w是占有非0元素的对角线的个数，也称带宽），压缩方法有：

（1）将其压缩到一个m行w列的二维数组B中

（2）将对角矩阵压缩存储到一维数组C中，按行存储其非0元素。

稀疏矩阵的压缩存储

稀疏矩阵中的非零元素的分布没有规律。

将稀疏矩阵中的每个非零元素表示为：

(行号，列号，非零元素值)——三元组

定义三元组：

emplate<class DataType>

structelement

{

int row,col; //行号，列号

DataTypeitem //非零元素值

};

三元组表：将稀疏矩阵的非零元素对应的三元组所构成的集合，按行优先的顺序排列成一个线性表。

（1）三元组顺序表

其存储结构定义：

constint MaxTerm=100;

template<class DataType>

struct SparseMatrix

{

DataTypedata[MaxTerm]; //存储非零元素

int mu,nu, tu; //行数、列数、非零元个数

};

（2）十字链表

采用链接存储结构存储三元组表，每个非零元素对应的三元组存储为一个链表结点。

row：存储非零元素的行号；

col：存储非零元素的列号；

item：存储非零元素的值；

right：指针域，指向同一行中的下一个三元组；

down：指针域，指向同一列中的下一个三元组。

秒客网

数据结构（c++版）第四章字符串和多维数组

相关文章

数据结构（c++版）第四章 字符串和多维数组

相关文章

数据结构（c++版）第四章字符串和多维数组