【leetcode】Repeated DNA Sequences（middle）★

All DNA is composed of a series of nucleotides abbreviated as A, C, G, and T, for example: "ACGAATTCCG". When studying DNA, it is sometimes useful to identify repeated sequences within the DNA.

Write a function to find all the 10-letter-long sequences (substrings) that occur more than once in a DNA molecule.

For example,

Given s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT",

Return:

["AAAAACCCCC", "CCCCCAAAAA"].

思路：

开始用hash表存储所有出现过一次的字符串，结果空间超了。有用最简单的循环，时间又超了。做不出来，看答案。

大神的方法，思路是用一个整数来表示一个10字符长的字符串，相当于给字符串编码了。每个字母用一个 2位的二进制数表示依次把每位对应的数字左移，后面或上新的表示数字。

//大神的方法 思路是用一个整数来表示一个10字符长的字符串 相当于给字符串编码了

    vector<string> findRepeatedDnaSequences3(string s) {

        unordered_set<int> words;

        vector<string> ans;

        char* map = new char[];

        map['A' - 'A'] = ;  //A C G T 分别用二进制数 00 01 10 11表示

        map['C' - 'A'] = ;

        map['G' - 'A'] = ;

        map['T' - 'A'] = ;

        for(int i = ; i +  < s.length(); i++) //遍历所有起始位置 注意！！！ 必须写成i + 9 < s.length() 不能写成 s.length() - 9, 因为s.length()-9为负数时会被当做是大正数，即并没有用负数来表示。 可能是s.length()是无符号数的原因

        {

            int v = ;

            for(int j = i; j < i + ; j++)

            {

                //对于一个字符串，每一个字母对应一个两位的二进制数 每次把数字左移两位 留出新的空位来放新字母对应的数

                v <<= ;

                v |= map[s[j] - 'A'];

            }

            //如果数字已经出现过，并且还没有被放入答案中，压入答案

            if(words.find(v) != words.end() && find(ans.begin(), ans.end(), s.substr(i, )) == ans.end())

            {

                ans.push_back(s.substr(i, ));

            }

            else

            {

                words.insert(v);

            }

        }

        return ans;

    }

我的两个通不过的方法

//hash表 内存超了

    vector<string> findRepeatedDnaSequences(string s) {

        vector<string> ans;

        unordered_set<string> hash;

        if(s.length() < ) return ans;

        for(int i = ; s.length() - i -  >= ; i++)

        {

            string sub = s.substr(i, );

            if(find(ans.begin(), ans.end(), sub) != ans.end())

            {

                continue;

            }

            if(hash.count(sub) == )

            {

                hash.insert(sub);

            }

            else

            {

                hash.erase(sub);

                ans.push_back(sub);

            }

        }

        return ans;

    }

    //简单的查找法 时间超了

    vector<string> findRepeatedDnaSequences2(string s) {

        vector<string> ans;

        if(s.length() < ) return ans;

        for(int i = ; s.length() - i -  >= ; i++)

        {

            string sub = s.substr(i, );

            if(find(ans.begin(), ans.end(), sub) != ans.end())

            {

                continue;

            }

            else if(s.find(sub, i + ) != s.npos)

            {

                ans.push_back(sub);

            }

        }

        return ans;

    }

    //大神的方法 思路是用一个整数来表示一个10字符长的字符串 相当于给字符串编码了

    vector<string> findRepeatedDnaSequences3(string s) {

        unordered_set<int> words;

        vector<string> ans;

        char* map = new char[];

        map['A' - 'A'] = ;  //A C G T 分别用二进制数 00 01 10 11表示

        map['C' - 'A'] = ;

        map['G' - 'A'] = ;

        map['T' - 'A'] = ;

        for(int i = ; i +  < s.length(); i++) //遍历所有起始位置

        {

            int v = ;

            for(int j = i; j < i + ; j++)

            {

                //对于一个字符串，每一个字母对应一个两位的二进制数 每次把数字左移两位 留出新的空位来放新字母对应的数

                v <<= ;

                v |= map[s[j] - 'A'];

            }

            //如果数字已经出现过，并且还没有被放入答案中，压入答案

            if(words.find(v) != words.end() && find(ans.begin(), ans.end(), s.substr(i, )) == ans.end())

            {

                ans.push_back(s.substr(i, ));

            }

            else

            {

                words.insert(v);

            }

        }

        return ans;

    }

秒客网

【leetcode】Repeated DNA Sequences（middle）★

相关文章