LeetCode 最长重复子串的更换问题
在处理字符串问题时,我们经常会遇到一些具有挑战性的问题,比如今天的这个问题:给定一个字符串 s
和一个整数 k
,我们的任务是找到可以通过最多更换 k
个字符来形成的最长重复子串的长度。
我的解决方案可能不是最快速、最有效或最简单的,但我希望通过这个过程深入理解相关的算法。
这个问题要求我们找到可以更换最多 k
个字符来形成重复子串的最长字符串。简单来说,就是允许我们改变字符串中的 k
个字符,使其变成另一个字符,从而创建一个重复的模式。
一种直观的方法是从长度为1的子串开始尝试,并逐步增加子串的长度,直到找到第一个不符合要求的子串。如果子串的长度为 n
且符合要求,那么长度为 n-1
的子串也必然符合要求。但是,这种方法的时间复杂度较高。
有没有更快的方法呢?我们注意到,通过连续检查长度为1、2、3等的子串,我们实际上是在按顺序检查子串的长度。这样的排序顺序让我们有机会使用二分搜索来加快搜索过程。
在这种情况下,我们如何应用二分搜索呢?首先,我们需要确定子串有效性的特征。问题的本质是找到一个子串,其中最常见的字符频率与子串长度之间的差值小于或等于 k
。这个差值表示除了最常见字符之外的字符数量。如果这个差值小于或等于 k
,我们就可以把这些字符全部更换为最常见的字符,从而形成一个只包含相同字符的子串。
假设子串的长度为 l
,最常见的字符频率为 maxFreq
。如果长度为 l
的子串有效,那么 l - maxFreq <= k
必然成立。如果长度为 l
的子串有效,那么长度小于 l
的所有子串也都有效。这就意味着,如果找到一个有效的长度 l
,所有长度小于 l
的子串也都是有效的。
但是,如果长度为 l
的子串无效,即 l - maxFreq > k
,我们能对长度为 l+1
的子串说什么呢?显然,l + 1 - maxFreq > l - maxFreq > k
,这意味着如果长度为 l
的子串无效,那么所有长度大于 l
的子串也都无效。
借助这些信息,我们如何应用二分搜索呢?二分搜索通过设置两个边界 lo
和 hi
来定义搜索空间。搜索空间是所有可能的候选解的集合。我们将中间的元素与目标值进行比较,以确定目标值是在搜索空间的前半部分还是后半部分。基于这个比较,我们调整 lo
和 hi
来缩小搜索空间。这个过程一直持续到搜索空间中只剩下一个元素为止,这个元素就是我们要找的答案。
回到我们的问题,我们使用 lo
和 hi
来定义搜索空间的两端:lo
表示到目前为止已知的最长有效子串的长度,hi
表示一个比搜索空间更高的值。我们之所以称这两个事实为不变,是因为我们需要在每一轮搜索后维护它们。
为了缩小搜索空间,我们遵循以下步骤:
- 找到中点。
- 如果我们找到一个长度等于中点值的有效子串,那么所有长度小于中点的子串也都是有效的,但不能是最长的子串。我们知道的最长子串的长度是中点值。为了在保持不变的情况下缩小搜索空间,我们将
lo
移动到mid
。现在,lo
仍然指向到目前为止已知的最长有效子串的长度,而hi
保持不变。 - 如果我们找不到长度等于中点值的有效子串,那么所有更长的子串也都无效。因此,最长子串的长度应该小于中点值。我们将搜索空间缩小到从
lo
到mid - 1
,通过将hi
移动到mid
。现在hi
指针比搜索空间高一个单位,而lo
保持不变。 - 我们继续步骤2和3,直到
lo
和hi
相邻。在这种情况下,lo
指向到目前为止已知的最长有效子串的长度,而hi
指向一个比搜索空间更高的值。因此,搜索空间中只剩下一个值lo
,这可能是最长子串的长度。这就是我们要找的答案。
以下是实现这个算法的JavaScript代码:
function characterReplacement(s: string, k: number): number {
let lo = k, hi = s.length + 1;
while(lo < hi - 1) {
const mid = Math.floor((lo + hi)/2);
if(isValidLength(mid)) {
lo = mid;
}
else {
hi = mid;
}
}
return lo;
function isValidLength(l:number):boolean {
const hashTB:Record<string, number> = {};
let start = 0, maxFreq = 0;
for(let end = 0; end < s.length; end++) {
if(!hashTB[s[end]]) hashTB[s[end]] = 1;
else hashTB[s[end]]++;
if(end - start + 1 > l) {
hashTB[s[start]]--;
start++;
}
if(maxFreq < hashTB[s[end]]) {
maxFreq = hashTB[s[end]];
}
if(l - maxFreq <= k) return true;
}
return false;
}
}
这段代码通过二分搜索和有效性验证函数 isValidLength
来确定最长重复子串的长度。这个过程不仅提高了解决问题的效率,还加深了我们对算法和数据结构的理解。