在Linux/Unix系统中,每个进程都有一个非负整型表示的唯一进程ID。虽然是唯一的,但是进程的ID可以重用。当一个进程终止后,其进程ID就可以再次使用了。大多数Linux/Unix系统采用延迟重用的算法,使得赋予新建进程ID不同于最近终止进程所使用的ID,这主要是为了防止将新进程误认为是使用同一ID的某个已终止的先前进程。本文讨论了Linux/Unix分配进程ID的方法以及源码实现。
分配进程ID的方法
在大多数Linux/Unix系统中,生成一个进程ID方法是:从0开始依次连续分配,一直到可以分配的最大的进程ID(不同的系统,这个最大值是不一样的,比如有些Linux系统是65536)。一旦到达最大值,重新从某个值(不同的系统,这个值也是不一样的,比如在Mac OS X和HP-UX系统中,这个值是100)开始依次连续查找那些还没有被使用的ID。这里分配进程ID的方法,存在潜在的安全问题。因为可以从系统获取信息或者提取进程间通信的内容。考虑到安全问题,部分系统可能用其他方法来分配进程ID,比如随机分配一个进程ID。无论用什么方法分配进程ID,系统都需要保证每个进程ID是独一无二的。
Linux系统上分配进程ID的源码实现
在Linux系统中,内核分配PID的范围是(RESERVED_PIDS, PID_MAX_DEFAULT),在每个namespace中,PID是依次连续分配的(在不同的namespace的task可以有相同的ID)。一旦ID达到分配到达上限(在pseudo-file /proc/sys/kernel/pid_max中可以查看可以分配的最大进程ID),从头开始查找分配PID。以下是相关的源代码:
struct pid *alloc_pid(struct pid_namespace *ns)
{
/*省略了一些代码*/
for (i = ns->level; i >= 0; i--) {
nr = alloc_pidmap(tmp);
if (nr < 0)
goto out_free;
pid->numbers[i].nr = nr;
pid->numbers[i].ns = tmp;
tmp = tmp->parent;
}
/*省略了一些代码*/
}
static int alloc_pidmap(struct pid_namespace *pid_ns)
{
int i, offset, max_scan, pid, last = pid_ns->last_pid;
struct pidmap *map;
pid = last + 1;
if (pid >= pid_max)
pid = RESERVED_PIDS;
/* and later on... */
pid_ns->last_pid = pid;
return pid;
}
注意在Linux内核中,进程PID实现并不仅仅是一个int标识符号(当然返回给应用程序,PID只是int类型的数值)。相关实现的结构体在/include/linux/pid.h中可以找到。除了ID外,它还包括跟这个ID相关的task列表、引用计数器和一个可以方便查找的hashed list。
进程ID分配需要注意的事项
1、僵尸进程的PID是暂时不能用的,需要其父进程收集器所有的终止状态才能使用,也就是说需要调用类似wait()函数后,才能使用。
2、具体实现时,系统可以随机分配进程PID(当然是保证没有被其他进程使用),因此在应用程序中,不要依赖于进程PID的分配方式。
3、在用户空间(user space)可能看到分配的进程ID并不连续,这是因为在应用程序两个fork之间,内核调度程序(scheduling)可能创建了一个进程。事实上,这种情况是经常发生的。
参考资料