字符串处理基本算法----字符串哈希

时间:2021-09-15 16:48:15

字符串匹配算法之字符串hash

我们平时在计数还有排序等基本操作中就经常会用到hash的思想,其本质就是将数值与需要操作的数据进行一一对应且不出现重复(重复这个算法就没意义了嘛)
既然一般的数字我们可以进行Hash,那么字符是否可以Hash呢?答案当然是肯定的!

为了更好地理解Hash,先给大家举个栗子,对与任意一个数字,我们将他转化为二进制之后可以表示成这样:
2 ( l e n [ i ] 1 ) n u m [ i ] + 2 ( l e n [ i 1 ] 1 ) n u m [ i 1 ] . . . + 2 0 1 n u m [ 0 ] = n u m b e r

—-> 101010 = 2 5 1 + 2 4 0 + 2 3 1 + 2 2 0 + 2 1 1 + 2 0 0

那么对于字符串我们一样可以进行相同的转化!

我们可以将 H a s h [ l e n ] 记为长度为 L e n 的前缀的 h a s h

那么对于字符串 s 的某一段前缀,我们可以将他转化为如下形式

H a s h [ i ] = s [ 1 ] x i + s [ 2 ] x ( i 1 ) + . . . + s [ i ] x 0

联系二进制数值的转化,我们发现我们需要一个底数以避免不同字符串有相同的 h a s h 值,我们可以叫他 b a s e ,

b a s e 在这里我们一般取个131就够了,所以我要取个233(我就是要皮一下)

b a s e 也不能随意取,一般我们取的是一个质数尽可能的减少 h a s h 值相等的意外。

综上所述,对于 L ~ R 区间的字符串,他们的 h a s h 值便为
H a s h [ R ] H a s h [ L ] b a s e ( R L + 1 )

至此,字符串 h a s h 的所有内容便讲完啦,是不是很简单!

下面是核心代码

ll base=233;

string s;

ll Hash[100005];
ll Base[100005];

void init()
{
    Base[0]=1;
    Hash[0]=0;
    for(int i=1;i<=100004;i++)
        Base[i]=Base[i-1]*base;
    for(int i=1;i<=s.size();i++)
        Hash[i]=Hash[i-1]*base+s[i]-' ';
}

int main()
{
    ios::sync_with_stdio(false);
    cin.tie(0);
    init();
}