缓冲区溢出笔记(2006年6月9日)

时间:2021-08-22 11:47:50
   栈通常用来存储函数的形式参数、本地变量(局部变量)以及在函数调用之前栈状态的信息。栈的读写遵循“LIFO”,即后进先出的原则,栈的长度向内存的低地址增长。堆通常用来存放动态分配的变量。举一个比较典型的例子,如果程序中调用了malloc函数去动态分配一块内存给一个指针,那么这个指针将有一个堆地址。堆的长度向内存的高地址增长。
   .bss和.data两个内存块,用来存放全局变量,这些变量的地址在程序编译阶段就已经分配。.data中存放的是已经初始化的数据,而.bss中存放的是未经初始化的数据。
   最后一个内存块,.text将存储程序的指令和一些只读的数据。
   以下有几个例子:
   heap
  
int main()
   {
      char *tata = malloc(3);
      ...
   }
   tata将指向堆中的一个地址。

   .bss
  
char global;
   int main()
   {
      ...
   }
  
   int main()
   {
      static int bss_var;
      ...
   }
   global和bss_var将会被存储于.bss块中。

   .data
  
char global = 'a';
   int main()
   {
      ...
   }

   int main()
   {
      static char data_var = 'a';
      ...
   }
   global和data_var将会被存储在.data块中。

关于函数的调用
  
我们来了解一下函数的调用是如何在内存中反映出来的,了解关于队栈的更加细节的东西,以便我们能理解幕后的潜在机制。
   在一个Unix操作系统中,函数的调用将会分为三个步骤:
   1.准备工作:指向当前帧的指针被保存,一帧可以视为栈的一个逻辑单元,包含了函数的所有元素。函数调用所必须的内存被预留出来。
   2.调用:在这个过程中,函数调用的参数被存放于栈中,同时栈中还存放了指向函数返回时继续执行的指令的指针。
   3.返回或者结束:这个时候,栈将回复函数调用之前的状态。

   随后,我们跟踪一段代码运行时内存的状态。
   int toto(int a, int b, int c)
   {
      int i = 4;
      return (a + i);
   }
   int main()
   {
      toto(0,1,2);
      return 0;
   }
   我们主要关注两个寄存器ebp(指向当前的frame)和esp()指向栈顶。
   在跟踪内存的时候,我们注意到,当函数调用的时候,首先会将指向当前现场的指针做入栈处理(该指针是ebp寄存器的内容),也就是先保存现场。之后将ebp寄存器指向栈顶,这时的栈已经保存了最初的从现场状态信息的地址。第三步则是为函数调用准备充足的内存空间。
   接下来会执行函数的功能指令。
   最终函数的调用由以下两个语句结束:
   leave
   ret
   leave语句将会使得ebp、esp两个寄存器的值恢复到函数调用之前。而ret语句将会让指令寄存器指向函数返回之后下一条将要执行的指令。
   上面的例子展示了当一个函数被调用的时候内存的组织情况。接下来我们来把重点放在研究内存预留和管理的状况。如果内存空间没有被良好的管理,将使得攻击者有利可图,破坏栈的正常组织,从而达到执行该程序预期之外的恶意代码的目的。
   这之所以能够成为可能,是因为当函数返回的时候,将从栈中取出下一条将要执行的指令的地址放入指令寄存器eip。这个地址是在函数调用的时候被存入栈的。
   因为这个地址是存储于栈中的,那么如果能够影响堆栈从而修改这个地址的值,那么就可能将这个地址指向攻击者希望执行的恶意代码,这段恶意代码是存储于内存的其它区域的。
   接下来,我们研究buffer缓冲区,在利用栈进行攻击的时候,它是最常用的。

缓冲区的漏洞
   在c语言中,字符串和数组都是用指针来描述的(指针指向字符串或者数组的首地址当遇到空字符的时候代表结束)。这就意味着我们无法精确的确定缓冲区的长度,这都取决于字符的数量。
   现在让我们进一步了解一下缓冲区在内存中的实现。
   (具体例子省略)
   尺寸的问题使得保护缓冲区不被溢出变得很困难。比如说,调用strcpy函数的时候如果不留意,会错误的把一个缓冲区的内容赋值给另一个比它要小的缓冲区。