Linux 中 core dump 文件的作用和使用方法

时间:2021-11-10 01:10:25

一 、概述

1.1 什么是 core dump 文件?

Core dump 文件是指在程序崩溃或异常结束时,操作系统将程序的内存信息、寄存器状态、堆栈信息等保存到文件中以便进行调试和分析的文件。Core dump 文件通常包含了程序崩溃时的全部状态信息,可以帮助程序员快速定位程序崩溃的原因并进行修复。

1.2 core dump 文件的作用和意义

Core dump 文件的作用非常重要,它可以帮助程序员分析程序崩溃时的状态信息,定位程序崩溃的原因并进行修复。通过分析 core dump 文件,程序员可以了解程序崩溃时的内存信息、寄存器状态、堆栈信息等,以及程序运行时的其他状态信息。这些信息可以帮助程序员快速定位程序崩溃的原因,提高程序的稳定性和可靠性。

1.3 Linux 中 core dump 文件的保存路径和命名规则

在 Linux 中,core dump 文件的保存路径和命名规则是可以配置的。默认情况下,core dump 文件保存在当前工作目录下,文件名以 core 开头,后面跟着进程号。例如,进程号为 123 的进程的 core dump 文件名为 core.123。

可以通过修改系统配置文件来指定 core dump 文件的保存路径和命名规则。在 Linux 中,core dump 文件的保存路径和命名规则通常由以下两个文件决定:

/proc/sys/kernel/core_pattern:该文件指定了 core dump 文件的命名规则和保存路径。例如,可以将 core dump 文件保存到 /var/crash 目录下,并使用进程名加进程号作为文件名,命令规则为:/var/crash/%!e(MISSING).%!p(MISSING).core。
/etc/security/limits.conf:该文件指定了生成 core dump 文件的大小限制。可以通过修改该文件来限制 core dump 文件的大小,以避免占用过多的磁盘空间。


二、如何开启 core dump 文件的生成

在 Linux 中,默认情况下是不会生成 core dump 文件的,需要手动开启。下面介绍三种开启 core dump 文件生成的方法:

2.1 ulimit 命令

ulimit 命令可以用来限制进程的资源使用量,例如文件大小、内存使用量等。通过设置 ulimit 命令的参数,可以开启 core dump 文件的生成。具体步骤如下:

执行 ulimit -c unlimited 命令,将 core dump 文件的大小限制设置为无限制。
运行程序,当程序崩溃或异常结束时,core dump 文件会自动生成。

2.2 sysctl 命令

sysctl 命令可以用来修改内核参数。通过设置 sysctl 命令的参数,可以开启 core dump 文件的生成。具体步骤如下:

执行 sysctl -w kernel.core_pattern=/tmp/core-%!e(MISSING)-%!s(MISSING)-%!u(MISSING)-%!g(MISSING)-%!p(MISSING)-%!t(MISSING) 命令,将 core dump 文件的命名规则设置为 /tmp/core-%!e(MISSING)-%!s(MISSING)-%!u(MISSING)-%!g(MISSING)-%!p(MISSING)-%!t(MISSING)。
执行 ulimit -c unlimited 命令,将 core dump 文件的大小限制设置为无限制。
运行程序,当程序崩溃或异常结束时,core dump 文件会自动生成。

2.3 /proc/sys/kernel/core_pattern 文件

可以通过修改 /proc/sys/kernel/core_pattern 文件来开启 core dump 文件的生成。具体步骤如下:

执行 echo “/tmp/core-%!e(MISSING)-%!s(MISSING)-%!u(MISSING)-%!g(MISSING)-%!p(MISSING)-%!t(MISSING)” > /proc/sys/kernel/core_pattern 命令,将 core dump 文件的命名规则设置为 /tmp/core-%!e(MISSING)-%!s(MISSING)-%!u(MISSING)-%!g(MISSING)-%!p(MISSING)-%!t(MISSING)。
执行 ulimit -c unlimited 命令,将 core dump 文件的大小限制设置为无限制。
运行程序,当程序崩溃或异常结束时,core dump 文件会自动生成。
通过以上几种方法,可以开启 core dump 文件的生成,以便对程序的崩溃或异常情况进行调试和分析。


三、如何分析 core dump 文件

当程序发生异常或崩溃时,操作系统会生成一个 core dump 文件。这个文件包含了程序崩溃时的内存状态,可以帮助开发者快速定位问题。下面介绍几个常用的工具来分析 core dump 文件。

3.1 gdb 调试工具

gdb 是一个强大的调试工具,可以用于调试 C 和 C++ 程序。它可以读取 core dump 文件,并提供了一系列命令来分析程序崩溃时的内存状态。

使用 gdb 分析 core dump 文件的步骤如下:

打开 core dump 文件:
gdb
查看程序崩溃时的堆栈信息:
(gdb) bt
查看程序崩溃时的变量值:
(gdb) p
查看程序崩溃时的寄存器状态:
(gdb) info registers
查看程序崩溃时的汇编代码:
(gdb) disassemble

3.2 objdump 工具

objdump 是一个反汇编工具,可以将可执行文件和共享库文件反汇编成汇编代码。它可以用于分析程序崩溃时的汇编代码,找出问题所在。

使用 objdump 分析 core dump 文件的步骤如下:

查看 core dump 文件中的程序代码段:
objdump -d -j .text
查看 core dump 文件中的程序数据段:
objdump -s -j .data
查看 core dump 文件中的程序符号表:
objdump -t

3.3 readelf 工具

readelf 是一个用于查看可执行文件和共享库文件的 ELF 格式文件头的工具。它可以用于分析程序崩溃时的内存布局,找出问题所在。

使用 readelf 分析 core dump 文件的步骤如下:

查看 core dump 文件中的程序段:

readelf -S <executable>

查看 core dump 文件中的程序符号表:

readelf -s <executable>

查看 core dump 文件中的程序动态链接信息:

readelf -d <executable>

3.4 coredumpctl 命令

coredumpctl 是一个命令行工具,用于管理系统中的 core dump 文件。它可以用于查看系统中最近发生的 core dump 文件,以及对这些文件进行分析。

使用 coredumpctl 命令分析 core dump 文件的步骤如下:

查看系统中最近发生的 core dump 文件:

coredumpctl list

查看指定的 core dump 文件:

coredumpctl info <coredump>

分析指定的 core dump 文件:

coredumpctl gdb <coredump>

四、如何限制 core dump 文件的大小

在许多情况下,生成的 core dump 文件可能非常大,占用大量磁盘空间。为了避免这种情况,您可以限制 core dump 文件的大小。以下是几种方法:

4.1 ulimit 命令

可以使用 ulimit 命令来限制用户的 core dump 文件大小。以下是一个示例:

$ ulimit -c 1000000

此命令将限制用户生成的 core dump 文件的大小为 1 MB。如果尝试生成更大的文件,程序将终止并返回错误。

4.2 /etc/security/limits.conf 文件

您还可以在 /etc/security/limits.conf 文件中设置 core dump 文件大小限制。以下是一个示例:

*               soft    core            1000000

此行将限制所有用户生成的 core dump 文件的大小为 1 MB。您可以根据需要调整此值。

要使此更改生效,您需要重新启动系统或注销并重新登录。

4.3 core_pattern 文件

在 Linux 系统中,生成的 core dump 文件的名称和位置由 core_pattern 文件定义。如果您想在生成 core dump 文件时限制其大小,可以在 core_pattern 文件中添加%!h(MISSING)/%!e(MISSING).%!p(MISSING).core.%!t(MISSING)|/bin/dd of=/path/to/core/files/core.%!e(MISSING).%!p(MISSING).%!t(MISSING) bs=1M count=10,如下所示:

echo "%!h(MISSING)/%!e(MISSING).%!p(MISSING).core.%!t(MISSING)" > /proc/sys/kernel/core_pattern
echo "|/bin/dd of=/path/to/core/files/core.%!e(MISSING).%!p(MISSING).%!t(MISSING) bs=1M count=10" >> /proc/sys/kernel/core_pattern

这将将 core dump 文件写入 /path/to/core/files/ 目录,并将其大小限制为 10 MB。您可以根据需要调整此值。

请注意,修改 core_pattern 文件可能会影响所有正在运行的程序。如果您不确定如何修改此文件,请先备份原始文件。


五、如何清理无用的 core dump 文件

5.1 手动删除

手动删除无用的 core dump 文件是最简单的方法。您可以使用以下命令来删除它们:

$ rm /path/to/core/files/*.core

请注意,这将删除 /path/to/core/files/ 目录中所有 .core 文件。如果您只想删除特定日期之前的文件,可以使用 find 命令:

$ find /path/to/core/files/ -type f -name "*.core" -mtime +7 -delete

这个命令将删除 /path/to/core/files/ 目录中超过 7 天的所有 .core 文件。

5.2 自动清理脚本

为避免手动清理 core dump 文件,您可以编写一个自动清理脚本。以下是一个示例脚本:

#!/bin/bash

CORE_DIR=/path/to/core/files/
DAYS_TO_KEEP=7

find $CORE_DIR -type f -name "*.core" -mtime +$DAYS_TO_KEEP -delete

将以上脚本保存为 clean_core_files.sh 并添加可执行权限:

$ chmod +x clean_core_files.sh

您可以将此脚本添加到 cron 中以定期运行:

$ crontab -e

然后添加以下行:

0 0 * * * /path/to/clean_core_files.sh

这将在每天午夜清理一次 core dump 文件。

5.3 coredumpctl 命令

如果您正在使用 Systemd,您可以使用 coredumpctl 命令来管理 core dump 文件。

以下是一些常用的 coredumpctl 命令:

列出所有 core dump 文件:

$ coredumpctl list

清除所有 core dump 文件:

$ coredumpctl purge

查看特定 core dump 文件的详细信息:

$ coredumpctl info /path/to/core/file

提取 core dump 文件中的堆栈跟踪信息:

$ coredumpctl gdb /path/to/core/file

请注意,coredumpctl 命令需要 Systemd 支持,并且只能在运行 Systemd 的系统上使用。


六、实例分析

在分析 core dump 文件之前,您需要安装 GDB 工具。以下是在 Ubuntu 上安装 GDB 的命令:

$ sudo apt-get install gdb

6.1 分析 core dump 文件中的堆栈信息

要分析 core dump 文件中的堆栈信息,请使用以下命令:

$ gdb /path/to/executable /path/to/core/file

这将打开 GDB 命令行界面并加载 core dump 文件。您可以使用 bt 命令查看堆栈跟踪信息:

(gdb) bt

此命令将显示函数调用堆栈跟踪信息,以帮助您确定程序崩溃的原因。

6.2 分析 core dump 文件中的寄存器信息

要分析 core dump 文件中的寄存器信息,请使用以下命令:

$ gdb /path/to/executable /path/to/core/file

然后使用 info registers 命令查看所有寄存器的值:

(gdb) info registers

此命令将显示所有寄存器的值,以帮助您了解程序崩溃时的状态。

6.3 分析 core dump 文件中的内存信息

要分析 core dump 文件中的内存信息,请使用以下命令:

$ gdb /path/to/executable /path/to/core/file

然后使用 x 命令查看内存内容:

(gdb) x/nfu address

其中 n 是要显示的内存单元数,f 是显示格式,u 是单位大小,address 是要查看的内存地址。例如,以下命令将显示从地址 0x0 开始的前 16 个字节:

(gdb) x/16xb 0x0

此命令将以十六进制格式显示 16 个字节,以帮助您了解程序崩溃时内存的状态。


七、常见问题和解决方案

在使用 core dump 文件进行调试和分析时,可能会遇到一些常见问题。以下是一些常见问题和解决方案:

7.1 无法生成 core dump 文件

如果您无法生成 core dump 文件,请确保以下条件已满足:

操作系统允许生成 core dump 文件。
程序已经设置了生成 core dump 文件的限制(例如使用 ulimit 命令)。
程序没有在运行时屏蔽了生成 core dump 文件的信号。
如果您仍然无法生成 core dump 文件,请尝试使用 strace 命令来跟踪程序并查看是否有任何错误消息。

7.2 core dump 文件过大导致磁盘空间不足

如果您的程序生成的 core dump 文件过大,可能会导致磁盘空间不足。在这种情况下,您可以尝试以下解决方案:

限制生成的 core dump 文件大小(例如使用 ulimit 命令)。
将 core dump 文件写入其他磁盘或存储设备。
定期清理无用的 core dump 文件。

7.3 core dump 文件中的信息不完整或不准确

如果您发现生成的 core dump 文件中的信息不完整或不准确,可能有以下原因:

程序在生成 core dump 文件时已经修改了内存或状态。
生成的 core dump 文件中可能只包含部分信息(例如仅包含当前线程的信息)。
使用的调试工具可能无法正确解析 core dump 文件中的信息。
在这种情况下,您可以尝试使用其他调试工具或使用其他方法进行调试和分析。


八、总结

在本文中,我们介绍了 core dump 文件的概念和作用,并学习了如何生成、捕获和分析这些文件。我们了解了如何使用 GDB 工具分析 core dump 文件中的堆栈、寄存器和内存信息,以帮助我们诊断程序崩溃的原因和调试错误。

我们还讨论了如何清理无用的 core dump 文件,包括手动删除、编写自动清理脚本和使用 coredumpctl 命令。

最后,我们强调了在开发和测试过程中生成和分析 core dump 文件的重要性,因为它们可以提供有关程序崩溃的有用信息,帮助我们改进代码质量和提高系统稳定性。