字符串的相似度计算

时间:2023-01-05 03:10:07


一、基于编辑距离的字符串相似度计算

转自:http://blog.chinaunix.net/uid-21202106-id-2406774.html

两个字符串之间的相似度可以用编辑距离来定义。所谓编辑,指的是,对字符串中的任一字符进行插入删除替换这三种操作。经过一定步骤的编辑,一个字符串可以变换为另一个字符串,那么最少的编辑步数称为两个字符串的编辑距离。


这是一个递归或动态规划的问题。比如长度分别为m,n的字符串str1和str2,其编辑距离为d(m,n), 则显然有

d(m,n) = min((str1[m]==str2[n])?d(m-1,n-1):d(m-1,n-1)+1, 
             d(m,n-1)+1,
             d(m-1,n)+1)


其意思是,编辑距离只与三种情况有关。假设将str1转化为str2: 
第一种情况,让str1的前m-1个字符和str2的前n-1个字符进行转化,str1最后一个字符 替换成str2最后一个字符。这样 (str1[m]==str2[n])?d(m-1,n-1):d(m-1,n-1)+1这一句就好理解了。即两字符串最后一个字符相等的话,就用不着替换,否则就要替换。
第二种情况,将str1转化为str2的前n-1个字符,然后插入str2最后一个字符,变成str2。其编辑步骤数显然是d(m,n-1)+1。
第三种情况,和第二种情况类似,将str1的前m-1个字符转化为str2,然后删除str1最后一个字符。

这三种情况各得到一个编辑步骤数,取其最小值即可。
这样,我们得到一个递归式。其初始条件是

d(0,k)=k, 1<=k<=n
d(k,0)=k, 1<=k<=m

初始条件也是显然的,0个字符转化为任何字符串只有一直插入的份。

因此,我们就可以据此递推式构造一个动态规划过程,假设两个字符串分别为"china"和"unix",则
     c  h  i  n  a
   0  1  2  3  4  5
 u  1  1  2  3  4  5
 n  2  2  2  3  3  4
 i  3  3  3  2  3  4
 x  4  4  4  3  3  4

图中黑色加粗部分是初始值,而红色部分是一条可能的路径。若将"china"变成"unix",则可能的步骤是
c->u, h->n, delete n, a->x

编程实现时,可以直接在一个矩阵中进行。但为节约空间,也可以只用两个数组,每次更新一行。但要注意,较长的字符串要置于水平方向。

#include<iostream>
#include<cstring>
using namespace std;

int min(int x,int y, int z){
     int m = x;
     if(m > y) m = y;
     if(m > z) m = z;
     return m;
}

int stringDistance(const char* str1, const char* str2){
     int len1 = strlen(str1);
     int len2 = strlen(str2);
     const char* longStr, *shortStr;
     int longLen, shortLen;
     if(len1 > len2){
         longStr = str1;
         shortStr = str2;
         longLen = len1;
         shortLen = len2;
     }else{
         longStr = str2;
         shortStr = str1;
         longLen = len2;
         shortLen = len1;
     }
     int *dist1 = new int[longLen+1];
     int *newdist = new int[longLen+1];
     for(int i=1;i<=longLen;i++){
         dist1[i] = i;
     }
     dist1[0] = 0;
     
     for(int j=0;j<=longLen;j++){
         cout << j << " " ;
     }
     cout << endl;
     for(int i=1;i<=shortLen; i++){
         newdist[0] = i;
         cout << i << " ";
         for(int j=1;j<=longLen;j++){
             newdist[j] = min(
                     (longStr[j-1]==shortStr[i-1])?dist1[j-1]:dist1[j-1]+1, 
                     newdist[j-1]+1, dist1[j]+1);
             cout << newdist[j] << " ";
         }
         cout << endl;
         memcpy(dist1, newdist, sizeof(int)*(longLen+1));
     }
     int result = dist1[longLen];
     delete [] dist1;
     delete [] newdist;
     return result;
}


int main(int argc, char* argv[]){
     if(argc != 3){
         cout << "USAGE: " << argv[0] << " str1  str2" << endl;
         return 0;
     }
     cout << "Edit Distance is: " << stringDistance(argv[1],argv[2]) << endl;
     return 0;
}


二、论文《基于编辑距离的字符串相似连接的研究》

http://www.doc88.com/p-6055582250389.html

三、论文《ed-ejoin一种优化的字符串相似连接算法》