8.1 字串距离
源程序名 blast.???(pas, c, cpp) 可执行文件名 blast.exe 输入文件名 blast.in 输出文件名 blast.out |
【问题描述】
设有字符串X,我们称在X的头尾及中间插入任意多个空格后构成的新字符串为X的扩展串,如字符串X为”abcbcd”,则字符串“abcb□cd”,“□a□bcbcd□”和“abcb□cd□”都是X的扩展串,这里“□”代表空格字符。
如果A1是字符串A的扩展串,B1是字符串B的扩展串,A1与B1具有相同的长度,那么我扪定义字符串A1与B1的距离为相应位置上的字符的距离总和,而两个非空格字符的距离定义为它们的ASCII码的差的绝对值,而空格字符与其他任意字符之间的距离为已知的定值K,空格字符与空格字符的距离为0。在字符串A、B的所有扩展串中,必定存在两个等长的扩展串A1、B1,使得A1与B1之间的距离达到最小,我们将这一距离定义为字符串A、B的距离。
请你写一个程序,求出字符串A、B的距离。
【输入】
输入文件第一行为字符串A,第二行为字符串B。A、B均由小写字母组成且长度均不超过2000。第三行为一个整数K(1≤K≤100),表示空格与其他字符的距离。
【输出】
输出文件仅一行包含一个整数,表示所求得字符串A、B的距离。
【样例】
blast.in blast.out
cmc 10
snmn
2
【算法分析】
字符串A和B的扩展串最大长度是A和B的长度之和。如字符串A为“abcbd”,字符串B为“bbcd”,它们的长度分别是la=5、lb=4,则它们的扩展串长度最大值为LA+LB=9,即A的扩展串的5个字符分别对应B的扩展串中的5个空格,相应B的扩展串的4个字符对应A的扩展串中的4个空格。例如下面是两个字符串的长度为9的扩展串:
a□b c□b□d□
□b□□b□c□d
而A和B的最短扩展串长度为la与lb的较大者,下面是A和B的长度最短的扩展串:
a b cbd
b□bcd
因此,两个字符串的等长扩展串的数量是非常大的,寻找最佳“匹配”(对应位置字符距离和最小)的任务十分繁重,用穷举法无法忍受,何况本题字符串长度达到2000,巨大的数据规模,势必启发我们必须寻求更有效的方法:动态规划。
记<A1, A2, …, Ai>为A串中A1到Ai的一个扩展串,<B1,B2, …, Bj>为B串中B1到Bj的一个扩展串。这两个扩展串形成最佳匹配的条件是(1)长度一样;(2)对应位置字符距离之和最小。
首先分析扩展串<A1, A2, …, Ai>与扩展串<B1, B2, …, Bj>长度一样的构造方法。扩展串<A1,A2, …, Ai>与扩展串<B1, B2, …, Bj>可以从下列三种情况扩张成等长:
(1)<A1, A2, …, Ai>与<B1, B2, …, Bj-1>为两个等长的扩展串,则在<A1, A2, …, Ai>后加一空格,<B1, B2, …, Bj-1>加字符Bj;
(2)<A1, A2, …, Ai-1>与<B1, B2, …, Bj>为两个等长的扩展串,则在<A1,A2, …, Ai-1>添加字符Ai,在<B1, B2, …, Bj>后加一空格;
(3)<A1, A2, …, Ai-1>与<B1, B2, …, Bj-1>为两个等长的扩展串,则在<A1, A2, …, Ai-1>后添加字符Ai,在<B1,B2, …, Bj-1>后添加字符Bj。
其次,如何使扩展成等长的这两个扩展串为最佳匹配,即对应位置字符距离之和最小,其前提是上述三种扩展方法中,被扩展的三对等长的扩展串都应该是最佳匹配,以这三种扩展方法形成的等长扩展串(A1, A2, …, Ai>和<B1, B2, …, Bj>也有三种不同情形,其中对应位置字符距离之和最小的是最佳匹配。
为了能量化上述的构造过程,引入记号g[i, j]为字符串A的子串A1, A2, …, Ai与字符串B的子串B1, B2, …, Bj的距离,也就是扩展串<A1, A2, …, Ai>与扩展串<B1, B2, …, Bj>是一个最佳匹配。则有下列状态转移方程:
g[i, j]=Min{g[i-1, j]+k, g[i,j-1]+k, g[i-1, j-1]+} 0≤i≤La 0≤j≤Lb
其中,k位字符与字符之间的距离;为字符ai与字符bi的距离。
初始值:g[0, 0]=0 g[0, j]=j·k g[i, 0]=i·k
综上所述,本题的主要算法如下:
(1)数据结构
var a, b:array[1..2000]of byte; {以ASCII码表示的字符串}
g:array[0..2000, 0..2000]oflongint; {各阶段的匹配距离}
(2)读入字符串A、B,转换为ASCII码
la:=0; lb:=0;
whilenot(eoln(f)) do {子串长度单元}
begin {从文件中读入一行字符}
read(f, c);
inc(la);
a[la]:=ord(c);
end;
readln(f);
whilenot(eoln(f)) do
begin
read(f, c);
inc(lb);
b[lb]:=ord(c);
end;
readln(f);
(3)根据状态转移方程求g[la, lb]
g[0,0]:=0;
fori:=1 to la do g[i, 0]:=k+g[i-1, 0];
forj:=1 to lb do g[0, j]:=k+g[0, j-1];
fori:=1 to la do
for j:=1 to lb do
begin
g[i, j]:=k+g[i-1,j];
temp:=g[i, j-1]+k;
if g[i, j]>temp theng[i, j]:=temp;
temp:=g[i-1,j-1]+abs(a[i]-b[j]);
if g[i, j]>temp theng[i, j]:=temp;
end;
(4)输出
writeln(f, g[la, lb]);
#include<cstdio>
#include<cstring>
#include<cmath>
#include<algorithm>
using namespace std;
const int maxn=2010;
char a[maxn];
char b[maxn];
int g[maxn][maxn]={0};//数组g储存状态
int k;
int main(void)
{
freopen("in.txt","r",stdin);
int a1,b1,up,low;
scanf("%s",&a);
scanf("%s",&b);
scanf("%d",&k);
a1=strlen(a),b1=strlen(b);
up=a1+b1;
low=max(a1,b1);
g[0][0]=0;
for(int i=1;i<=a1;i++) g[i][0]=k+g[i-1][0];
for(int i=1;i<=b1;i++) g[0][i]=k+g[0][i-1];
int temp;
for(int i=1;i<=a1;i++)
{
for(int j=1;j<=b1;j++)
{
g[i][j]=k+g[i-1][j];
temp=g[i][j-1]+k;
if(g[i][j]>temp) g[i][j]=temp;
temp=g[i-1][j-1]+abs(a[i-1]-b[j-1]);
if(g[i][j]>temp) g[i][j]=temp;
// printf("%d ",g[i][j]);
}
// printf("\n");
}
printf("%d\n",g[a1][b1]);
return 0;
}
/*
A1,B1具有相同的长度 相应位置上的距离
空格和非空格之间的差为K
可以转化为相互对应问题
A1与B1之间的字符相互对应
a[i][j]表示A1的前i个字符与B1的前j个字符对应时的最小距离和
则a[i][j]=
{
a[i][j]=min(a[i][j-1]+k,a[i][j])//A1失对应,合成空格对应B1
a[i][j]=min(a[i-1][j]+k,a[i][j])//B1失去对应
a[i][j]=min(a[i][j],a[i-1][j-1]+abs(A1[i]-B1[j]))//A1、B1和对
a[i][j]的取值即为四个状态的最小值
当i==j&&i、j的长度均不小于字符串长度时
}
关键的问题在于如何表示A1、B1具有相同长度这个状态
*/