Linux0.11内核--进程的结束

进程的结束

结束一个进程，就是要释放该进程所有的结构和资源，让系统从此之后再也感觉不到它的存在。如前面所说的，一个进程的结构包括：

task[]数组中一项，指向了该进程的task_struct和内核堆栈所在页面；
GDT中两项，一项是TSS描述符，一项是LDT描述符；
若干页目录项和若干页表。

一个进程拥有的资源包括：

进程拥有的所有物理页面（包括页表和task_struct所占页面）；
进程打开的所有文件。

GDT中的两项不用特意清除，以后别的进程要用时直接覆盖上去就了。因此，进程要结束就要做好如下几件事情

释放所有物理页面；

关闭所有打开的文件；

清除task[]数组中相关项。

清除task[]数组项往往是最后一步工作。当该项被清除后，进程就不可能被调度函数schedule()再次选中了。同时，进程结束时还可能需要与父进程通信，所以子进程一般完成前面两个任务，然后通知父进程“子进程要结束了！！”，最后由父进程做最后的task[]数组项清除。子进程通过系统调用exit()完成前两项任务，把自己变成僵死状态（TASK_ZOMBIE）。父进程通过系统调用waitpit()完成最后的扫尾。

Linux0.11内核--进程的结束

/****************************************************************************//* 功能：通知进程号为pid的父进程，子进程结束*//*其实就是给父进程发送SIGCHLD信号*//* 参数：pid 父进程的进程号*//* 返回：（无）*//****************************************************************************/static void tell_father(int pid){int i;// 遍历task[]数组，寻找进程号为pid的进程if (pid)for (i=0;i<NR_TASKS;i++) {if (!task[i])// 跳过空项continue;if (task[i]->pid != pid)// 跳过进程号不是pid的项continue;task[i]->signal |= (1<<(SIGCHLD-1));// 向pid发送SIGCHLD信号return;}/* if we don't find any fathers, we just release ourselves *//* This is not really OK. Must change it to make father 1 */// 到这里说明父进程找不到，这时释放task[]数组项的工作就要子进程自己完成。// 正常情况下程序不会运行到这里，因为若父进程退出，子进程会由进程1接管。// 到这里说明程序有bug了。printk("BAD BAD - no father found/n/r");release(current);// 只能子进程自己完成扫尾工作}

/****************************************************************************//* 功能：当前进程释放所有资源和结构，只保留进程控制块，同时*//* 进入僵死状态，等待父进程做最后处理 *//* 参数：出错码*//* 返回：（无）*//****************************************************************************/int do_exit(long code){int i;// 第一步工作，释放进程占用的所有物理页面，同时清空相应页目录项和页表free_page_tables(get_base(current->ldt[1]),get_limit(0x0f));// 释放代码段free_page_tables(get_base(current->ldt[2]),get_limit(0x17));// 释放数据段// 如果当前要结束进程还有子进程，则需要让进程1变成所有进程的父进程// 进程1保证调用waitpid()，处理所有子进程结束的扫尾工作。for (i=0 ; i<NR_TASKS ; i++)// 把当前进程的所有子进程交给进程1if (task[i] && task[i]->father == current->pid) {task[i]->father = 1;// 如果有的子进程已经是僵死状态，则给进程1发送SIGCHLD信号if (task[i]->state == TASK_ZOMBIE)/* assumption task[1] is always init */(void) send_sig(SIGCHLD, task[1], 1);}// 第二步，关闭所有文件，同时释放占用的文件i节点。for (i=0 ; i<NR_OPEN ; i++)if (current->filp[i])sys_close(i);iput(current->pwd);current->pwd=NULL;iput(current->root);current->root=NULL;iput(current->executable);current->executable=NULL;if (current->leader && current->tty >= 0)tty_table[current->tty].pgrp = 0;if (last_task_used_math == current)last_task_used_math = NULL;// 如果当前进程是一个会话的首领，则终止该会话的所有进程// 即向进程发送SIGHUP信号if (current->leader)kill_session();// 两步工作都完成了，当前进入僵死状态current->state = TASK_ZOMBIE;current->exit_code = code;// 设置退出码，父进程会取// 通知父进程，子要进程结束，即向父进程发送SIGCHLD信号tell_father(current->father);// 重新调度，当内核调度到父进程时，让父进程处理最后事宜schedule();// 因为当前进程的状态已经是僵死状态了，所以schedule()函数永远不会再次// 选中当前进程。也就是说do_exit()是永远运行不到这里的。// 当父进程最终把当前进程的task[]数组项清空后，当前进程完全消失。return (-1);/* just to suppress warnings */}/****************************************************************************//* 功能：exit()系统调用，内部再调用真正的处理函数do_exit()*//* 参数：出错码*//* 返回：（无）*//****************************************************************************/int sys_exit(int error_code){return do_exit((error_code&0xff)<<8);}

/****************************************************************************//* 功能：释放p指向的一页内存，并且清空task[]数组中存放p的项*//* 参数：p 存放进程控制块所在页面的地址*//* 返回：（无）*//****************************************************************************/void release(struct task_struct * p){int i;if (!p)return;// 遍历整个task[]数组，直到找到存放了p的数组项for (i=1 ; i<NR_TASKS ; i++)if (task[i]==p) {// 找到了存放p的数组项task[i]=NULL;// 清空数组项free_page((long)p);// 是否p指向的一页物理内存schedule();// 重新调度，似乎没有必要，但也没错return;}// 如果task[]数组中没有一项值等于p，说明正在对一个并不存在的进程进行操作// 这时内核有错误，死机panic("trying to release non-existent task");}/****************************************************************************//* 功能：waitpid系统调用，当前进程挂起，进入可中断等待状态。直到pid指定的子*//* 进程退出（即僵死装入）。然后释放子进程占用的最后资源（即进程控制块*//* 和内核堆栈所占用的一页物理内存）。如果子进程已经是僵死状态，当前进程*//* 无需挂起，直接释放子进程资源。*//* 参数：pid指定子进程的进程标识号*//*pid > 0等待进程号为pid的子进程*//*pid = 0等待进程组号等于当前进程组号的任何一个子进程*//*pid = -1等待任何一个子进程*//*pid < -1等待进程组号等于-pid的任何一个子进程*//*stat_addr指向long型的指针，存放状态信息*//*options*//*如果options中WNOHANG置位：表示如果没有满足pid标识的子进程*//*进入僵死状态，则马上退出，当前进程不用挂起等待。*//*如果options中WUNTRACED置位，表示如果满足pid标识的子进程*//*是停止状态（TASK_STOPPED），当前进程马上退出，不用跟踪,同时*//*如果stat_addr不是空，就将状态信息保存到那里。*//* 返回：子进程号*//* 负数出错码*//****************************************************************************/int sys_waitpid(pid_t pid,unsigned long * stat_addr, int options){int flag, code;struct task_struct ** p;// 验证stat_addr开始4个字节的内存是否可写，如果不能写需要分配新的内存页面verify_area(stat_addr,4);repeat:flag=0;// 遍历整个task[]数组，寻找满足pid条件的子进程for(p = &LAST_TASK ; p > &FIRST_TASK ; --p) {if (!*p || *p == current)// 忽略task[]中的空项和当前进程continue;if ((*p)->father != current->pid)// 忽略非当前进程儿子的进程continue;// 下面根据pid在值考察子进程的情况// 如果下面三个情况都没有continue，则pid就是-1if (pid>0) {// 如果pid>0，忽略进程号不是pid的进程if ((*p)->pid != pid)continue;} else if (!pid) {// 如果pid=0，忽略组号不是当前进程组号的进程if ((*p)->pgrp != current->pgrp)continue;} else if (pid != -1) {// 如果pid<-1，忽略组号不是-pid的进程if ((*p)->pgrp != -pid)continue;}// 到这里，说明找到了符合pid条件的子进程// 分别考察子进程在状态switch ((*p)->state) {case TASK_STOPPED:// 子进程是停止状态if (!(options & WUNTRACED))// 如果WUNTRACED没有置位，则继续// 扫描其他进程continue;put_fs_long(0x7f,stat_addr); // 如果WUNTRACED置位，则写入状态信息// 0x7f使得WIFSTOPPED()宏为真return (*p)->pid;// 返回子进程的pidcase TASK_ZOMBIE:// 如果子进程退出current->cutime += (*p)->utime;// 把子进程的用户态和内核态时间current->cstime += (*p)->stime;// 计入父进程中flag = (*p)->pid;// 临时保存子进程号，下面要返回code = (*p)->exit_code;// 取出子进程的退出码release(*p);// 是放子进程最后占用的资源，彻底消灭子进程put_fs_long(code,stat_addr);// 把子进程退出码放入stat_addr中return flag;// 返回子进程号default:flag=1;// 如果子进程是其他任何状态，把flag置为1continue;}}if (flag) {//程序会运行到这里，说明满足条件的子进程状态不是停止或退出。if (options & WNOHANG)// 如果WNOHANG置位，马上退出return 0;current->state=TASK_INTERRUPTIBLE;// 否则当前进程挂起schedule();// 重新调度// 当调度程序重新选择当前进程后，从这里开始运行// 检查当前进程是否仅仅因为SIGCHLD信号而被唤醒，如果是，从repeat// 重新开始运行。if (!(current->signal &= ~(1<<(SIGCHLD-1))))goto repeat;else// 如果当前进程还收到其他信号，则返回出错码return -EINTR;}// 程序到这里，说明找不到满足pid条件的子进程return -ECHILD;// 返回出错码}

一个进程eixt()后并没有完全消失，它的物理页面全部释放了，页表页目录项也全部清除。只剩进程控制块（task_struct）和内核堆栈占用的一页内存还保留着，在task[]数组中还有它的一项。同时进程进入了僵死状态，在也不会被调度执行。一个进程永远不会再次被调度，但是它却还占有task[]数组中的一项，这让人很难忍受，所以这时的进程就像僵尸一样让人讨厌。

最后一页内存以及task[]数组项的清除工作应该由父进程调用waitpid()完成，但是很有可能父进程无法完成，比如如下情况：

父进程早于子进程exit()；
子进程僵死，但父进程没有调用waitpid()；
父进程调用waitpid()，但因为种种原因没有释放子进程资源就退出了。

我们必须要在这样的情况下仍然能消灭掉掉僵死进程，否则它们永远占用task[]数组项，会使得find_empty_process()函数找不到空闲的task[]数组项，导致无法创建新的进程。

解决方法很简单，如果父进程无法完成，就让让进程1来做。当一个父进程早于子进程exit()时，它把所有的子进程过继给进程1。当父进程没有调用waitpid()，或调用waitpid()但还是没能消灭僵死进程时，僵死的子进程永远存在，直到父进程exit()，这时子进程过继给进程1，同时父进程向进程1发送SIGCHLD信号。

init()的源代码分析见系统初始化这章，这里我们主要看进程1如何接管父进程无法消灭的僵死进程。init()的伪代码如下：

Linux0.11内核--进程的结束

当init()初始化应用环境后，进程1就运行在while(1)的死循环中。进程1创建进程2，进程2用execve()系统调用运行shell。当用户与shell交互时，进程1运行在里层while(1)循环中，该循环的作用就是收拾所有的僵死进程。

wait()函数的定义在wait.c中，它封装了waitpid()函数，等待任何子进程结束。

wait()

pid_t wait(int * wait_stat)

{

return waitpid(-1,wait_stat,0);

}

父进程调用waitpid()最多只能处理一个满足条件的子进程，除非它像进程1那样在死循环中调用waitpid()。进程1死循环调用wait()，直到当前shell退出，保证处理完所有僵死进程。

秒客网

Linux0.11内核--进程的结束

相关文章