算法导论15.4-6 最长递增子序列(nlogn)

设序列X(n)，最长递增子序列长度为m，考虑长度为i的递增子序列，这种序列有多个，最小的末尾元素记为L(i)，可以得到 L(1) <= L(2) <= ... <= L(m)，这个证明较简单，使用反证法即可。在这个递增的序列中使用十分法查找，则可以实现O(nlogn)的算法。

从左到右扫描序列X(n)，L(1) 初始为x(1)，再引入一个当前最大长度K，初始为1，K表示目前扫描过的序列包含的最长递增子序列的长度，此时L(1)...L(K)有意义。读入一个数据x，如果L(i)是大于x中最小的，则x也是一个递增子序列的末尾元素，按照L(i)的定义，则L(i) = x，如此可以将数据x替换L(i)，以下是函数实现：

#define NO_STRICTLY
static inline int find_pos(int *B, int len, int value)
{
    int left = 0, right = len - 1, middle = 0;

    while (left <= right) {
        middle = (left + right)>>1;
        if (B[middle] < value)
            left = middle + 1;
#ifdef NO_STRICTLY
        else if (B[middle] == value)
            left = middle + 1;
#endif
        else
            right = middle - 1;
    }
    
    return left;
}

用构造法证明，由于L(i)是大于x中最小的，则x>=L(i-1)，按照L(i-1)的定义，将x添加到L(i-1)的i-1 长度的递增子序列的末尾，就构造了一个长度为i的递增子序列。

形象的来讲，每读入一个数，就尝试将此数放置到一个递增序列的末尾，构造出一个更长的递增序列。

详细步骤参考如下的例子：

序列 2 1 3 0 4 1 5 2 7

	L1	L2	L3	L4	L5
开始	2
读入1	1
读入3	1	3
读入0	0	3
读入4	0	3	4
读入1	0	1	4
读入5	0	1	4	5
读入2	0	1	2	5
读入7	0	1	2	5	7

以上过程有如下几个特征

1. L的值只会越变越小，这是最自然的，因为L(i)就是长度为i的递增子序列中的最小末尾元素

2. 读入一个数据x，会覆盖某个L，这个L是>=x中最小的，如果x大于所有L，则新生成一个L。读入每个数据，L都是一个递增序列

3. 由于L是递增序列，插入数据时可以使用二分法进行，所以每个输入字符时间复杂度为O(logn)，整体时间复杂度为O(nlogn)

4. L的长度即为序列X(n)的最长递增子序列的长度

5. 从最左下角的L开始，按照“往上、往左”方向就会输出最长递增子序列的内容。优先往上，如果上方数据和当前数据相同，如果上方数据不同则转向左，上图最后输出的递增子序列为“1 3 4 5 7”

代码如下：

static int lis_nlogn_old(int *p, int len, int *inc_seq)
{
    int i = 0;
    int *L = NULL;
    int **seq = NULL;
    int pos = 0, curr_len = 0;

    seq = malloc(len * sizeof(int *));
    seq[0] = malloc(len * sizeof(int) * len);
    for (i = 1;i < len;i++) {
        seq[i] = seq[0] + len * i;
    }
    
    L = malloc((len + 1) * sizeof(int));

    L[0] = p[0];
    curr_len = 1;
    seq[0][0] = p[0];

    for (i = 1;i < len;i++) {
        pos = find_pos(L, curr_len, p[i]);
        L[pos] = p[i];
        if (pos > 0) {
            memcpy(seq[pos], seq[pos - 1], pos * sizeof(int));
            seq[pos][pos] = p[i];
        }
        else {
            seq[0][0] = p[i];
        }
        if (pos + 1 > curr_len)
            curr_len++;
    }

    free(L); free(seq[0]);free(seq);

    memcpy(inc_seq, seq[curr_len - 1], curr_len * sizeof(int));
    return curr_len;
}

很遗憾，虽然上述算法可以在O(nlogn)的时间内得到最长子序列的长度，但无法得到整个子序列，原因是每读入一个新数据，就需要将前一个数据保存的L值复制过来，考虑这部分的时间，就会发现整体复杂度为O(n*n)

注意整个子序列不能通过L数组来获得，因为某个L[i]会在后续被修改过了，为获取整个子序列，需要保存每个元素的前驱元素，即当前元素所属于的递增子序列的前一个元素，注意到每个元素的前驱元素一旦确定，就不会改变，所以可以根据这个前驱关系确定最长子序列。下面是更新后的代码

static int lis_nlogn(int *p, int len, int *inc_seq)
{
    int i = 0, pos = 0, curr_len = 0;
    int *L = NULL, *prev = NULL, *M = NULL;

    L = malloc(len * sizeof(int));
    M = malloc(len * sizeof(int));    
    prev = malloc(len * sizeof(int));

    L[0] = p[0];
    M[0] = 0;
    prev[0] = -1;               /* the prev of the p[0] is NULL */ 
    curr_len = 1;

    /* Caculate prev and M */
    for (i = 1;i < len;i++) {
        pos = find_pos(L, curr_len, p[i]);
        L[pos] = p[i];
        M[pos] = i;
        if (pos > 0)
            prev[i] = M[pos - 1];
        else
            prev[i] = -1;
        if (pos + 1 > curr_len)
            curr_len++;
    }

    /* Output increasing sequence */
    pos = M[curr_len - 1];
    for (i = curr_len - 1;i >= 0 && pos != -1;i--) {
        inc_seq[i] = p[pos];
        pos = prev[pos];
    }

    return curr_len;
}

秒客网

算法导论15.4-6 最长递增子序列(nlogn)

相关文章