http://www.ibm.com/developerworks/cn/aix/library/0806_chench_core/
本节主要探讨 core dump 产生的背景知识。对这部分不感兴趣的读者可以直接阅读第二章,了解基本的 core dump 定位手段。
软件是人思维的产物。智者千虑,必有一失,人的思维总有缺陷,反映到软件层面上就是程序 bug。程序 bug 的终极体现就是 core dump,core dump 是软件错误无法恢复的产物。
进程 core dump 与系统 dump 的产生,从程序原理上来说是基本一致的。dump 的生成一般是在系统进行中断处理时进行的,下面简单介绍一下中断机制。
操作系统的中断机制
操作系统是由中断驱动的。广义的中断一般分为两类,中断 (Interrupts) 和异常 (Exceptions)。中断可在任何时候发生,与 CPU 正在执行什么指令无关,中断主要由 I/O 设备、处理器时钟(分时系统依赖时钟中断划分时间片)或定时器等硬件引发,可以被允许或取消。而异常是由于 CPU 执行了某些指令引起的,可以包括存储器存取违规、除 0 或者特定调试指令等,内核也将系统服务视为异常。系统对这两类中断的处理基本上是相同的。
每个中断都会唯一对应到一个中断处理程序,在该中断触发时,相应的处理程序就会被执行。例如应用进程进行系统调用时,就会触发一个软件异常,进入中断处理函数,完成从用户态到系统态的迁移并进入相应系统调用的入口点。应用进程 coredump 也是一个类似的过程。
应用进程 core dump 生成过程
在进程运行出现异常行为时,例如无效地址访问、浮点异常、指令异常等,将导致系统转入内核态进行异常处理(即中断处理),向相应的进程发出特定信号例如 SIGSEGV、SIGFPE、SIGILL 等。如果应用进程注册了相应信号的处理函数(例如可通过 sigaction 注册信号处理函数),则调用相应处理函数进行处理(应用程序可以选择记录信息后生成 core dump 并退出);否则将采取默认动作,例如 SIGSEGV 的默认动作是生成 core dump 并退出程序。
进程 coredump 的时候,操作系统会将进程终止并释放其占用的资源,正常情况下,应用进程 coredump 不会对系统本身的运行造成危害。当然如果系统中存在与此进程相关的其他进程,则这些进程会受到影响,至于后果则视其对此异常的具体处理而定。
由于相关指令已经包含在可执行文件中,core 文件一般只包含进程异常时相关的内存信息。其格式可参考 /usr/include/sys/core.h 或者 AIX 帮助文档的“Files Reference”章节。我们一般需要结合 core 文件以及可执行程序,来分析问题所在。
注:由于进程信号处理本质上是异步的,应用进程注册的信号处理函数中使用的例程需要保证是异步信号安全的,例如不能使用诸如 pthread_ 开头的例程。
系统 dump 生成过程
系统异常 dump 的具体过程与应用进程类似,但由于更接近底层,为了避免问题所在的资源(例如文件系统)正好包含在生成 dump 需要使用的资源中,造成 dump 无法生成,操作系统一般会用最简单的方式来生成 dump。例如系统内存小于 4G 的情况下,一般直接将 dump 生成在 pagingspace 中;大于 4G 时,会建专门的 lg_dumplv 逻辑卷(裸设备)保存 dump 信息。在系统重启的时候,如果设置的 DUMP 转存目录(文件系统中的目录)有足够空间,它将会转存成一个文件系统文件,缺省情况下,是 /var/adm/ras/ 下的 vmcore* 这样的文件。
系统 dump 一般可以通过升级微码、提高系统补丁级别、升级驱动等方式解决。
上一章我们介绍了 core dump 产生的基本原理。本章我们将针对 AIX 操作系统,介绍 core dump 定位相关的背景知识。
可以通过 /etc/security/limits 文件对各用户的基本配置参数包括 core 大小进行限制。或者通过 ulimit 更改当前环境下的 core 大小限制。
默认情况下,应用进程生成 core dump 时都使用文件名 core。为了避免同一工作目录下的进程 core 相互覆盖,可以定义环境变量 CORE_NAMING=true,然后启动进程,这样将生成名为 core.pid.ddhhmmss 的文件。可以使用 file core 命令查看 core 是哪个进程产生的。
默认情况下,应用进程 dump 时会包含所有的共享内存,如果 dump 时想排除共享内存内容,可以在启动进程之前设置环境变量 CORE_NOSHM=true.
系统有一个参数 fullcore 用于控制是否在程序 coredump 时生成完整的 core。为避免信息丢失,建议打开 fullcore。可以使用 lsattr –El sys0 查询是否将 fullcore 打开,使用 chdev -l sys0 -a fullcore=true 将 fullcore 状态更改为打开。也可以在程序内部调用 sigaction 例程设置 fullcore,参考如下测试程序:
fullcore 设置示例
|
应用进程的 core 产生在其当前工作目录下,可以在应用程序内部使用 chdir 函数切换当前工作目录。使用 procwdx 命令可以查看进程的当前工作目录。系统的 core 生成在 lg_dumplv 下,并在重启时转移到 /var/adm/ras/ 目录下(如果有足够空间的话,否则继续保留在 lg_dumplv,并随时有可能被覆盖)。
可以使用 errpt -a 查看标识 C0AA5338 SYSDUMP(系统 core)、B6048838 CORE_DUMP(进程 core)的详细错误信息,获取生成 core 的进程以及 core 文件位置。使用 snap –ac 收集系统的 dump 信息。
如果可能 , 直接在发生 coredump 的机器上用 dbx 分析出结果 , 这样是最方便的分析方法 . 这种情况下注意不要直接以 root 用户登录然后用 dbx 分析 , 而必须在应用程序所属的用户下进行此操作 , 因为 core 可能需要依赖应用程序运行时对应环境下的某些库 , 这样就要借助应用程序的环境变量 .
如果需取回生产机上的 core 信息在实验室分析 , 则需要搜集一些相关信息 . 进程 core 分析一般至少需要依赖应用可执行程序,有时还需要包括一些运行时动态库信息。如果需要收集 core 相关的完整信息,可运行 snapcore <core 路径以及名称 > < 可执行文件以及名称 >,例如 snapcore ./core ./a.out,然后在 /tmp/snapcore 下取下相应的 .pax.Z 文件。
正常的收集过程应该如下 :
snap core 收集过程
|
dbx 是 AIX 下基于命令行界面的源码级调试工具。本文档只提供一些基本的 dbx 分析指令,详细内容请参考“General Programming Concepts: Writing and Debugging Programs”关于 dbx 的描述。
初步分析
|
示例:
# dbx ./test core |
显示出 core 发生时,当前进程执行到的位置(-g 编译的情况下能够看到具体的行):
(dbx) where |
注意:
如果分析的是异地 core 文件,需要采用 snapcore 收集相关 core 信息。对于依赖链接库的情况,注意需要增加 -p oldpath=newpath:...
重新设置链接库路径(只有所有依赖的库都已经被链接,才能完整的复现 core dump 故障现场),参考 dbx 的帮助文档获取更多信息。
# cd /tmp/snapcore |
列举源码信息
列举程序源码(list,需要在运行 dbx 命令时使用 -I 指明源码搜索路径,并使用 -g 编译)或者汇编码(listi):
(dbx) listi main |
列举变量内容
示例代码:
#include <iostream> |
以全局变量 g_test 举例:
#print g_test 显示 g_test 的取值
#print sizeof(g_test) 显示 g_test 的大小
#whatis g_test 显示 g_test 的类型
#print &g_test 显示 g_test 的地址
#&g_test/16x 显示从 g_test 的地址开始处,连续 16 个 WORD(?byte)的取值
如果没有使用 -g 编译,则不能动态获取 g_test 的类型、大小等信息,但能够得到 g_test 的地址,并查询该地址所在区域存储空间的值。
例如:
# ./a.out |
列举寄存器内容
列举寄存器内容:
(dbx) registers
如下模拟一个简单的 core dump,对 0 地址赋值引发 core dump 的问题:
# dbx ./a.out core |
这个例子比较简单,从最后汇编指令“stw r3,0x0(r4)”就可以简单的看到程序 core dump 是因为向 0 地址(0+r4)存入 18(r3 寄存器值)造成。
查看多线程相关信息
如果以下环境变量采用默认的 OFF 值,则系统会完全禁止适当的调试列表,这意味着 dbx 命令将显示不出任何对象:
AIXTHREAD_MUTEX_DEBUG
AIXTHREAD_COND_DEBUG
AIXTHREAD_RWLOCK_DEBUG
可以使用
export AIXTHREAD_MUTEX_DEBUG=ON
打开 AIXTHREAD_MUTEX_DEBUG。
- 查看线程信息
(dbx) print $t1 // 打印 t1 线程的基本信息
(dbx) attribute
(dbx) condition
(dbx) mutex
(dbx) rwlock
(dbx) thread
例如:
(thread_id = 1, state_u = 4, priority = 60, policy = other, attributes = 0x20001078)
- 切换当前线程(默认当前线程为收到 core 触发信号所在线程)
(dbx) thread current [tid]
例如(> 表明 core dump 时的当前线程):
(dbx)thread
thread state-k wchan state-u k-tid mode held scope function
$t1 wait 0x31bbb558 running 10321 k no pro _ptrgl
$t2 wait 0x311fb958 running 6275 k no pro _ptrgl
>$t3 run running 6985 k no pro _p_nsleep
$t4 wait 0x31bbbb18 running 6571 k no pro _ptrgl
$t5 wait 0x311fb9d8 running 7999 k no pro _ptrgl
$t6 wait 0x31bf8f98 running 8257 k no pro _ptrgl
$t7 wait 0x311fba18 running 8515 k no pro _ptrgl
$t8 wait 0x311fb7d8 running 8773 k no pro _ptrgl
$t9 wait 0x311fbb18 running 9031 k no pro _ptrgl
$t10 wait 0x311fb898 running 9547 k no pro _ptrgl
$t11 wait 0x311fb818 running 9805 k no pro _ptrgl
$t12 wait 0x311fba58 running 10063 k no pro _ptrgl
$t13 wait 0x311fb8d8 running 10579 k no pro _ptrgl
(dbx) thread current 3
(dbx) where
_p_nsleep(??, ??) at 0xd005f740
raise.nsleep(??, ??) at 0xd022de3c
sleep(??) at 0xd0260344
helper(??) at 0x100005ac
(dbx) thread current 4
warning: Thread is in kernel mode, not all registers can be accessed.
(dbx) where
ptrgl._ptrgl() at 0xd020e470
raise.nsleep(??, ??) at 0xd022de3c
raise.nsleep(??, ??) at 0xd022de3c
sleep(??) at 0xd0260344
helper(??) at 0x100005ac
(dbx)
core dump 分析的局限性
不要期待能依赖 core dump 分析解决所有的问题,下面是一个简单的模拟缓冲区溢出的例子,在这个例子中由于缓冲区溢出覆盖了调用栈信息,从而完全丢失了定位依据:
root@/tmp#>xlC test.C -g -o test2 |
可以通过“sysdumpdev –l”查看系统当前的 dump 配置信息:
root@/#>sysdumpdev -l |
注意旧版本的 AIX “always allow dump”可能默认为关闭;为方便系统 crash 时问题定位,建议打开,可使用命令 sysdumpdev –K 或者使用 smitty -> System Environments-> Change / Show Characteristics of System Dump 菜单设置。
sysdumpdev –L 获得最近系统产生的 dump 的相关统计信息:
#>sysdumpdev -L |
为保证系统出现 crash 时,dump device 能够保存下 dump 信息,需要合理的配置 dump device 的大小,可以使用 sysdumpdev –e 估计系统 dump 需要的空间。一般推荐的 dump device 值大小为 sysdumpdev –e 估计值的 1.5 倍。
本文档只提供一些基本的 dump 分析指令,详细内容请参考“KDB kernel debugger and kdb command ”。
初步分析
kdb 对 dump 文件分析需要借助于产生 dump 的内核文件 /unix,一般 snap –ac 会对此文件进行收集。初步命令如下:
#kdb ./dump ./unix
示例:
#kdb ./dump ./unix |
分析命令示例
status 查看各个 CPU 在 dump 时正在运行的进程,如:
0)> status |
cpu <id> 命令切换当前 CPU,默认的当前 CPU 为 cpu0:
(0)> cpu 1
(1)>
打印系统的基本状态和相关信息:
(0)> stat
打印系统 dump 时内核栈的情况:
(0)> f
lke 用来列出内核代码对应的相关系统文件信息:
(0)> lke 003DE9CC
显示系统 dump 时最后所在的指令:
(0)> dr iar
显示虚拟存储管理的日志信息;其中 Exception value 若为 0000001C 则表示 pagingspace 耗尽:
(0)> vmlog
显示进程表的信息:
(0)> proc
显示线程表的信息:
(0)> th
显示系统的 errpt 信息:
(0)> errpt
ERRORS NOT READ BY ERRDEMON (ORDERED CHRONOLOGICALLY): |
本文简单介绍了 core dump 相关的背景知识以及 AIX 上调试 core dump 的一些基本方法。通过阅读这篇文章,希望您能对 AIX 下 core dump 机制有所了解,并能够借助 core dump 定位基本的系统以及应用程序问题。
学习
-
AIX Files Reference:这个参考为有经验的 AIX 开发人员提供了对操作系统重要文件的全面的、详细的描述信息。
-
General Programming Concepts: Writing and Debugging Programs:本书为开发人员提供了在 AIX 上开发应用程序所需要知道的几乎所有的信息。
-
KDB kernel debugger and kdb command:本书介绍了如何使用 KDB 内核调试器以及 kdb 命令来对 AIX 上的程序进行调试。
-
AIX and UNIX 专区:developerWorks 的“AIX and UNIX 专区”提供了大量与 AIX 系统管理的所有方面相关的信息,您可以利用它们来扩展自己的 UNIX 技能。
-
AIX and UNIX 新手入门:访问“AIX and UNIX 新手入门”页面可了解更多关于 AIX 和 UNIX 的内容。
-
AIX and UNIX 专题汇总:AIX and UNIX 专区已经为您推出了很多的技术专题,为您总结了很多热门的知识点。我们在后面还会继续推出很多相关的热门专题给您,为了方便您的访问,我们在这里为你把本专区的所有专题进行汇总,让您更方便的找到你需要的内容。
-
AIX Wiki:发现 AIX 相关技术信息的协作环境。
- 按主题搜索“AIX and UNIX”库:
-
Safari 书店:访问此电子参考资料库可查找特定的技术资源。
-
developerWorks 技术事件和网络广播:了解最新的 developerWorks 技术事件和网络广播。
-
Podcasts:收听 Podcast 并与 IBM 技术专家保持同步。
获得产品和技术
-
IBM 试用软件:从 developerWorks 可直接下载这些试用软件,您可以利用它们开发您的下一个项目。
讨论
- 参与 developerWorks Blog,从而加入到 developerWorks 社区中来。
- 参与“AIX and UNIX”论坛: