问题:
给定一个单词a,如果通过交换单词中字母的顺序可以得到另外的单词b,那么定义b是a的兄弟单词,例如单词army和mary互为兄弟单词。现在给定一个字典,用户输入一个单词,如何根据字典找出这个单词有哪些兄弟单词?要求时间和空间效率尽可能的高。
解法一:
使用hash_map和链表。
首先定义一个key,使得兄弟单词有相同的key,不是兄弟的单词有不同的key。例如,将单词按字母从小到大重新排序后作为其key,比如bad的key为abd,good的key为dgoo。
使用链表将所有兄弟单词串在一起,hash_map的key为单词的key,value为链表的起始地址。
开始时,先遍历字典,将每个单词都按照key加入到对应的链表当中。当需要找兄弟单词时,只需求取这个单词的key,然后到hash_map中找到对应的链表即可。
这样创建hash_map时时间复杂度为O(n),查找兄弟单词时时间复杂度是O(1)。
解法二:
同样使用hash_map和链表。
将每一个字母对应一个质数,然后让对应的质数相乘,将得到的值进行hash,这样兄弟单词的值就是一样的了,并且不同单词的质数相乘积肯定不同。
使用链表将所有兄弟单词串在一起,hash_map的key为单词的质数相乘积,value为链表的起始地址。
对于用户输入的单词进行计算,然后查找hash,将链表遍历输出就得到所有兄弟单词。
这样创建hash_map时时间复杂度为O(n),查找兄弟单词时时间复杂度是O(1)。
据说是百度的一个面试题,是这样描述的:
其实总结下问题描述其实是差不多的:给定一个字典(即单词序列),用户输入一个单词,求出字典中单词的变换?
一:
看到这个题目后,直觉是可能是这样的:求出输入单词的全部变换(假如单词的长度是n,则其全部变换有n!个。如果有相同的字母就不是n!了吧?),求出单词的变换后,判断每个变换是否在字典中。
例如对于输入abc,则其变换有3!=6种:abc、acb、bca、bac、cab、cba。然后在依次判断这6个单词(当然这里不是单词了,而是字符串)是否在字典中,如果在字典中则记录下来。
很明显这种思想的复杂度是比较高的,因为对于n稍微大点的话,n!是一个很可怕的递增过程,因此这个方法是不太可取的。
二:
考虑使用hash的方法。构造一个hash函数,该函数使得单词的变换具有相同的hash值。
可以构造这样的函数,给定一个字符串,其hash值是字符串中字母的有序排列。例如字符串cda对应的hash值是acd;zhang的hash值是aghnz,即是字母从小到大的排列。这样对于一个单词的变换其hash值是相同的。
有上面的介绍后可以根据下面的步骤来进行了:
1、根据输入单词求出其hash值,即将单词按字母从小到大进行排列。
2、遍历给定的字典,对于字典里的每个单词,求出其hash值,然后和上一步中求出的hash值进行比较,如果相等,那么这个单词就是输入单词的一个变换,否则不是。
当然上面的方法是可行的。不过时间复杂度是比较高的:
word_hash = hash(word); //如果使用快排,复杂度是nlgn
for(i=0; i<n; i++)//n
{
temp = hash(dic[i]); //nlgn
if(strcmp(temp, word_hash) == 0)
{
output dic[i];
}
}
总的时间复杂度是n*nlgn(不知道算的正确不),当然,如果hash的时间复杂度降低的话还是很不错的。
通过上面可以知道其实可以提前求出字典中单词的hash值,然后再进行匹配的。这样可以有一个变化的方法:
利用c++中的mutilmap或者其他容器,将hash值和字典中的单词昨为一个pair保存在mutilmap中。pair的情况是:<hash(word), word>,其中hash(word)作为map的key,word作为value。
这样就可以遍历map进行判断了。当然也可以先对map进行排序,这样会更快点。
这大概就是这个题目的思路。
编程珠玑上有一些简单的介绍和一个程序实现;这本 STL.Tutorial.and.Reference.Guide 的第12~15章节都是分析了这个问题,不断的改进,是一个很详细的介绍,值得学习。