BZOJ 3172: [Tjoi2013]单词 [AC自动机 Fail树]

时间:2021-05-01 21:33:35

3172: [Tjoi2013]单词

Time Limit: 10 Sec  Memory Limit: 512 MB
Submit: 3198  Solved: 1532
[Submit][Status][Discuss]

Description

某人读论文,一篇论文是由许多单词组成。但他发现一个单词会在论文中出现很多次,现在想知道每个单词分别在论文中出现多少次。

Input

第一个一个整数N,表示有多少个单词,接下来N行每行一个单词。每个单词由小写字母组成,N<=200,单词长度不超过10^6

Output

输出N个整数,第i行的数字表示第i个单词在文章中出现了多少次。

Sample Input

3
a
aa
aaa

Sample Output

6
3
1

本题的意思是说文本就是那些单词组成的.......(中间会有空格吧)
如果朴素做法建一个AC自动机然后一个个单词当做文本来匹配(走,cnt++)时间复杂度受不了】
于是发现有个神奇的地方,匹配的模式同样也是文本,建AC自动机的时候已经走过一次了啊!
Trie树ins的时候经过节点就cnt++,(也就是说这个模板能匹配到当前插入的文本)
然后统计每个单词终点节点的Fail树中子树cnt和就可以了
(因为“某个结点所对应的字符串肯定是其后代结点所对应的字符串的后缀”啊)
 
PS:如何统计Fail子树和?队列中正好是BFS序(建fail树(反向)的顺序),队列从后往前更新fail指针的cnt就可以了
pos[i]表示第i个模板串在文本中的位置
 
#include <iostream>
#include <cstdio>
#include <cstring>
#include <algorithm>
using namespace std;
const int N=1e6+,M=;
int n;
char s[N];
struct node{
int ch[],fail,cnt;
}t[N];
int pos[M],sz;
void ins(char s[],int &x){
int u=,n=strlen(s+);
for(int i=;i<=n;i++){
int c=s[i]-'a';
if(!t[u].ch[c]) t[u].ch[c]=++sz;
u=t[u].ch[c];
t[u].cnt++;
}
x=u;
}
int q[N],head,tail;
void getFail(){
head=tail=;
for(int i=;i<;i++)
if(t[].ch[i]) q[tail++]=t[].ch[i];
while(head!=tail){
int u=q[head++];
for(int i=;i<;i++){
int &v=t[u].ch[i];
if(!v) {v=t[t[u].fail].ch[i];continue;}
t[v].fail=t[t[u].fail].ch[i];
q[tail++]=v;
}
}
for(int i=tail-;i>=;i--) t[t[q[i]].fail].cnt+=t[q[i]].cnt;
}
int main(){
//freopen("in.txt","r",stdin);
scanf("%d",&n);
for(int i=;i<=n;i++){
scanf("%s",s+);
ins(s,pos[i]);
}
getFail();
for(int i=;i<=n;i++) printf("%d\n",t[pos[i]].cnt);
}