阿里P7面试之生产环境变慢问题,排查思路

前提：面试我的阿里的哥们儿听到我这么详细的分析了一波，我从他的语气里面看出，他大概知道，我做过这方面的分析，但是光是这些分析，也只能说明一些基础的问题，还是得在工作中实战的去总结问题。

1.问题描述：生产环境变慢问题，变慢这个问题主要是感官上的变慢，究其原因有两方面服务器全局慢，服务器局部慢。

1.2.服务器全局慢包括cpu 慢，内存慢，io/磁盘慢，io/网络慢。

1.3.服务器局部慢指得是发现某一个或者多个服务很慢。

2.全局查询思路：

2.1 top 命令（进程，cpu,内存）

202008 阿里P7面试之生产环境变慢问题,排查思路

第 1 行：系统时间、运行时间、登录终端数、系统负载（三个数值分别为1分钟、5分钟、15分钟内的平均值，数值越小意味着负载越低）。
第 2 行：进程总数、运行中的进程数、睡眠中的进程数、停止的进程数、僵死的进程数。一般情况下，只要没有僵死的进程，就没啥大问题。
第 3 行：用户占用资源百分比、系统内核占用资源百分比、改变过优先级的进程资源百分比、空闲的资源百分比等。
第 4 行：物理内存总量、内存空闲量、内存使用量、作为内核缓存的内存量。
第 5 行：虚拟内存总量、虚拟内存空闲量、虚拟内存使用量、已被提前加载的内存量。
第 6 行里面主要看 PID 和 COMMAND 这两个参数，其中 PID 就是进程 ID ， COMMAND 就是执行的命令，能够看到比较靠前的两个进程都是 java 进程。

202008 阿里P7面试之生产环境变慢问题,排查思路
在当前这个界面，按下数字键盘1刷新信息，能够看到各个 CPU（多核情况）的详细利用率变化，按下数字键盘m ，能够查看内存使用情况.

2.2 vmstat 命令（cpu 内存 io 系统）

vmstat -n 3 2

202008 阿里P7面试之生产环境变慢问题,排查思路

-n 3 2 间隔3秒采集2次

procs ：
r ：运行和等待 CPU 时间片的进程数，一般来说整个系统的运行队列不要超过总核数的 2 倍，要不然系统压力太大了
b : 等待资源的进程数，比如正在等待磁盘 IO ，网络 IO 这种

cpu ：
us ：用户进程消耗 CPU 时间百分比， us 值高的话，说明用户进程消耗 CPU 时间比较长，如果长期大于 50% 的话，那就说明程序还有需要优化的地方
sy ：内核进程消耗的 CPU 时间百分比
us + sy 参考值为 80% ，如果大于 80% 的话，说明可能存在 CPU 不足

2.3 free（内存）

free -m

202008 阿里P7面试之生产环境变慢问题,排查思路