字符串匹配之后缀树

时间:2022-03-13 05:59:49

引言

        试想有这样一个问题,有一个长度为N的字符串A(N值很大),还有一个模式串B,B的长度为M(N/M很大,说明B只是一个小片段),此时需要判断B是否是A的字串。如果我们使用KMP算法的话,那么复杂度为O(N),对A串进行K次模式匹配的话就是KO(N),此时为了降低复杂度,我们可以考虑预处理长字符串A,是的,如果我们预先处理好A的后缀树,那么搜索子串的复杂度就降为O(M),进行K次匹配为KO(M),和原来相比,效率大大提高。那么预处理字符串A的复杂度为多少呢?使用Ukkonen的算法,它的时间和空间复杂度都为O(N),这就像是做了一件一劳永逸的事情一样,一次预处理,多次使用。或许你已经猜到了,我描述的问题就是DNA序列的匹配。

后缀树(Suffix Tree)

一个长度为n的字符串S,它的后缀树是一棵满足以下条件的树:
  1. 每条边都代表一个非空字符串;
  2. 所有的内部结点(根节点除外)都至少有2个子节点(数据压缩
  3. 有n个叶子节点,且从根到叶子的路径表示了一个唯一的后缀(前提是字符串s的最后一位字符时字典中唯一存在的,显而易见S的不同后缀有n个)。
或许看定义不容易理解,那我们来举个栗子。我们从suffix trie开始讲。suffix trie 是一棵列出字符串A所有后缀的树。比如字符串A=abaaba$
字符串匹配之后缀树
其实suffix trie和suffix tree仅仅差一步之遥。从图中我们可以看到每一条边仅表示一个字符,这样列出所有后缀需要的节点数为(1+2+...+n),空间复杂度为O(N2)。这样对于长字符串(比如基因序列),我们就不可忍了。仔细观察后缀字典树的结构,我们会发现很多路径都没有分支了,既然没有分支,那么我们就可以把它们集合在一起(数据压缩),这样每条路径表示的就不是一个字符了,而是一个字符序列,可以用字符串中的索引值表示。
字符串匹配之后缀树

参考文献