Chapter 3 进程管理
3.1 进程
进程就是处于执行期的程序(目标码存放在某种存储介质上),但进程并不仅仅局限于一段可执行程序代码。通常进程还要包含其他资源,像打开的文件,挂起的信号,内核内部数据,处理器状态,一个或多个具有内存映射的内存地址空间及一个或多个执行线程。当然还包括用来存放全局变量的数据段等,实际上,进程就是正在执行的程序代码的实时结果,内核需要有效而又透明地管理所有细节。
执行线程,简称线程,是在进程中活动的对象,每个线程都拥有一个独立的程序计数器、进程栈和一组进程寄存器,内核调度的对象是线程,而不是进程,在传统的Linux系统中,一个进程只包含一个线程,但现在的系统中,包含多个线程的多线程程序司空见惯。Linux系统的线程实现非常特别:它对线程和进程并不特别区分,
对Linux而言,线程只不过是一种特殊的进程罢了。
在现代操作系统中,进程提供两种虚拟机制:虚拟处理器和虚拟内存。
-
在现代Linux内核中,fork()实际上是由clone()系统调用实现的。
3.2 进程描述符及任务结构
内核把进程的列表存放在叫做任务队列的双向循环链表中。
链表中的每项都是类型为task_struct、称为进程描述符的结构,该结构定义在<linux/sched.h>文件中。
3.2.1 分配进程描述符
3.2.2 进程描述符的存放
3.2.3 进程状态
五种进程状态:运行、可中断、不可中断、被其他进程跟踪的进程、停止
3.2.4 设置当前进程状态
内核需要经常调整某个进程的状态:settaskstate(task,state)函数
3.2.5 进程上下文
可执行程序代码是进程的重要组成部分。这些代码从一个可执行文件载入到进程的地址空间执行。一般程序在用户空间执行。当一个程序调执行了系统调用(参见第5章)或者触发了某个异常,它就陷入了内核空间。此时,我们称内核“代表进程执行”并处于进程上下文中。在此上下文中current宏是有效的。除非在此间隙有更高优先级的进程需要执行并由调度器做出了相应调整,否则在内核退出的时候,程序恢复在用户空间会继续执行。 系统调用和异常处理程序是对内核明确定义的接口。进程只有通过这些接口才能陷入内核执行——对内核的所有访问都必须通过这些接口。
3.3 进程创建
3.3.1 写时拷贝
传统的fork()系统调用直接把所有的资源复制给新创建的进程,这种实现过于简单并且效率低下,因为它拷贝的数据也许并不共享,更糟的情况是,如果新进程打算立即执行一个新的映像,那么所有的拷贝都将前功尽弃。Linux的fork()使用写时拷贝页实现,写时拷贝是一种可以推迟甚至免除拷贝数据的技术。内核此时并不复制整个进程地址空间,而是让父进程和子进程共享同一个拷贝。
只有在需要写入的时候,数据才会被复制,从而使各个进程拥有各自的拷贝,也就是说资源的复制只有在需要写入的时候才进行,在此之前,只是以只读方式共享,这种技术使地址空间上的页的拷贝被推迟到实际发生写入的时候才进行在页根本不会被写入的情况下它们就无须复制了。
fork()的实际开销就是复制父进程的页表以及给子进程创建唯一的进程描述符。在一般情况下,进程创建后都会马上运行一个可执行的文件,这种优化可以避免拷贝大量根本就不会被使用的数据(地址空间里常常包含数十兆的数据)由于Unix强调进程快速执行的能力,所以这个优化是很重要的。
3.4 线程在Linux中的实现
线程机制是现代编程技术中常用的一种抽象概念,该机制提供了在同―程序内共享内存地址空间运行的―组线程,这些线程还可以共享打开的文件和其他资源,线程机制支持并发程序设计技术,在多处理器系统上,它也能保证真正的并行处理。 Linux实现线程的机制非常独特,从内核的角度来说,它并没有线程这个概念,Linux把所有的线程都当做进程来实现,内核并没有准备特别的调度算法或是定义特别的数据结构来表征线程,相反,线程仅仅被视为―个与其他进程共享某些资源的进程,每个线程都拥有唯一隶属于自己task_struct,所以在内核中,它看起来就像是一个普通的进程(只是线程和其他一些进程共享某些资源,如地址空间)。
3.4.1创建进程
3.4.2内核线程
内核经常需要在后台执行一些操作,这种任务可以通过内核线程完成——独立运行在内核空间的标准进程。内核线程和普通的进程间的区别在于内核线程没有独立的地址空间。它们只在内核空间运行,从来不切换用户空间去,内核进程和普通进程一样,可以被调度,也可以被抢占。 Linux确实会把一些任务交给内核线程去做,像flush和ksofirqd这些任务就是明显的例子,在装有Linux系统的机子上运行ps -ef命令,你可以看到内核线程,有很多!这些线程在系统启动时由另外一些内核线程创建,实际上,内核线程也只能由其他内核线程创建,内核是通过从kthreadd内核进程中衍生出所有新的内核线程来自动处理这一点的,在<linux/kthreadd>中申明有接口。
3.5 进程终结
当一个进程终结时,内核必须释放它所占有的资源并把这一不幸告知其父进程。
3.5.1 删除进程描述符
3.5.2 孤儿进程造成的进退维谷
如果父进程在子进程之前退出,必须有机制来保证子进程能找到一个新的父亲否则这些成为孤儿的进程就会在退出时永远处于僵死状态,白白地耗费内存。前面的部分已经有所 暗示于这个问题,解决方法是给子进程在当前线程组内找—个线程作为父亲,如果不行就让init做它们的父进程。