uptime
uptime命令功能比较简单,主要功能如下所示:
- 查看服务器的开机时长
- 查看CPU负载
基本用法
uptime
用法示例
[root@localhost ~]# uptime
15:33:08 up 10 days, 4:40, 2 users, load average: 1.56, 1.22, 0.92
输出内容解释如下所示:
显示内容 | 解释 |
---|---|
15:33:08 | 系统当前时间 |
up 10 days, 4:40 | 主机已运行时间,时间越长,说明机器越稳定 |
2 users | 用户连接数,是总连接数而不是用户数 |
load average: 1.56, 1.22, 0.92 | 系统平均负载,统计最近1、5、15分钟的系统平均负载 |
系统平均负载:指在某一段时间间隔内运行队列中的平均进程数。根据实际工程经验来看,单核负载在 0.7 以下是安全的,如超过则需要进行优化了。
除了使用uptime外,我们也可以使用以下方式来获取系统的平均负载情况。
[root@localhost ~]# cat /proc/loadavg
1.32 1.35 1.15 1/5585 28715
- 前面3个数字分别表示最近1、5、15分钟的系统平均负载
- 1/5585:分母表示系统的总进程数,分子表示正在运行的进程数
- 28715:最近一个启动运行进程的ID
free
free常用来查看系统的可用内存和已使用内存等信息。
基本用法
free [选项]
常用选项如下所示:
选项 | 解释 |
---|---|
-b | 以byte为单位显示内存使用情况 |
-k | 以KB为单位显示内存使用情况 |
-m | 以MB为单位显示内存使用情况 |
-g | 以GB为单位显示内存使用情况 |
-t | 额外显示内存总和 |
-h | 以较短的数字(默认为3位数)进行显示且增加单位,方便查看 |
-s time | 持续观察内存使用情况 |
-c count | 常与-s一直使用,用来设置采样样本数 |
-l | 详细显示高峰和低谷时的内存使用统计情况 |
采用-k/-m/-g/-h显示的值均采用向下取整的方式显示,如果需要精确查看,则建议使用-b
用法示例
1、显示主机内存使用情况
[root@localhost ~]# free -t -m
total used free shared buff/cache available
Mem: 128652 32106 87049 1293 9496 94266
Swap: 4095 0 4095
Total:132748 32106 91145
输出内解释如下所示:
total:可用物理内存总量
used:已经使用的内存数,包含buff/cache
free:可使用的内存数,不含buff/cache
share:多个进程共享的内存数
buff/cache:buff/cache占用量
Swap:交换分区使用量,虚拟内存
Total:物理内存总数
vmstat
vmstat是一个Linux监控工具,全称为Virtual Memory Statistics。可用于查看关于进程、内存、I/O、等系统整体运行状态。
基本用法
vmstat [选项] [采样间隔] [采样样本数]
常用选项如下所示:
选项 | 解释 |
---|---|
-a | 显示活动/非活动的内存信息 |
-f | 显示自系统启动以来的系统创建的总任务数 |
-t | 增加时间戳 |
-m | 显示slabinfo信息 |
-n | 头部信息仅显示一次 |
-s | 以表格形式显示内存指标及系统事件信息等 |
-d | 显示各磁盘的统计信息 |
-p | 显示特定分区的详细统计信息 |
delay | 设置两次更新之间的时间间隔,如果不指定,则默认显示从开机到现在的平均值 |
count | 指定采样的样本数,如delay指定而count不指定则一直持续监控和输出 |
用法示例
1、常用用法
vmstat delay count
- delay:采样时间间隔
- count:采样的样本数
2、查看服务器创建了多少个任务数
[root@localhost ~]# vmstat -f
51221915 forks
3、显示特定分区的统计信息:
[root@localhost ~]# vmstat -p /dev/sdb1
sdb1 reads read sectors writes requested writes
754 35990 81 22102
结果分析
对于vmstat出来的统计结果,如何判定是否存在问题了?不同的服务器、操作系统、应用场景等均不一样,也无法给出统一的判断标准,需要大家根据实际情况进行综合判断。以下是一些实际应用中的经验,仅供参考:
- 1、如果cache的值比较大,则说明系统缓存了比较多的磁盘数据,有利于磁盘I/O性能的提升,此时,bi会相对较小,因为很多读写磁盘的操作都由cache来承担了。
- 2、si和so则代表读写SWAP的数量,这两个值如果长期大于0,则表示系统需要经常读写交换分区,这样会消耗CPU资源和磁盘I/O性能。如能确定物理内存存在瓶颈,则需要进行扩容或迁移了。
- 3、如free的值很低,基于接近于0,也不一定就是系统内存已经耗尽,还需要结合buffer和cache的使用量,如果buffer和cache占用了很多内存资源,则代表没有问题,说明系统把空闲的内存都用于缓存,反而是提升了I/O性能,当系统需要内存时,buffer和cache可以随时被回收回来。
- 4、如果bi和bo值很大,则说明系统正在进行大量的磁盘读写操作。如果是用户正在进行的操作,则没有问题,否则需要进行排查哪个设备或分区在进行大量读写操作。
- 5、如果us的值经常大于50%,则说明用户进程占用的CPU时间比较多,需要对占用较多的程序进行排查和优化了。
- 6、如果sy值比较高,需要排查系统是否存在问题。
- 7、如果wa值比较高,则说明CPU总是在等待I/O操作,说明磁盘已经成为瓶颈,需要排查磁盘是否存在问题或优化程序的读写操作
- 8、如果r值总是超过CPU核数,则说明CPU可能成为瓶颈,可考核升级CPU等
mpstat
mpstat全称Multiprocessor statistics,也是一个监控工具,主要对象是CPU。
基本用法
mpstat [选项] [采样间隔] [采样样本数]
常用选项如下所示:
选项 | 解释 |
---|---|
-I | 显示中断统计信息 |
-P | 显示指定CPU编号的统计信息,0为第一个CPU |
-u | 显示CPU的使用情况 |
-A | 等同于-u -I ALL -P ALL |
与-I一起使用的参数如下所示
- SUM:显示所有CPU中断次数之和
- CPU:显示每个CPU中断次数
- ALL:将SUM和CPU的内容一起显示
与-P一起使用的参数如下所示
- ON:仅统计在线的CPU使用情况
- ALL:统计所有CPU的使用情况
CPU常用指标
该指标一般是使用选项-u出来的统计结果,如下所示:
指标 | 解释 |
---|---|
CPU | CPU编号 |
%usr | 用户进程所使用的CPU占比 |
%nice | 对进程进行降级时的CPU占比 |
%sys | 内核进行使用的CPU占比 |
%iowait | 空闲态中等待I/O请求所使用的CPU占比 |
%irq | 处理系统中断所使用的CPU占比 |
%soft | 软件中断所使用的CPU占比 |
%steal | 虚拟管理程序所使用的CPU占比 |
%guest | 运行虚拟处理器所使用的CPU占比 |
%gnice | 运行降级虚拟程序所使用的CPU占比 |
%idle | CPU空闲态的CPU占比 |
用法示例
1、查看所有CPU运行状态
2、查看指定CPU编号的运行状态
3、查看CPU中断情况
因为CPU的运算速度比外部硬件要快很多。以硬盘为例,如果是简单的顺序执行,则CPU需要等待很长
时间,不停询问硬盘是否读取完成,而这样会浪费很多CPU时间。为此人们提出一种中断机制,使得读取硬
盘这样的操作交给其他设备来完成,而CPU则挂起当前进程,将控制权转让给其他来处理的进程,当其他设
备处理完成后通知CPU,系统将当前进程标识为活动进行,从而继续执行,处理硬盘的读取操作。
top
top是Linux中一个常用的性能监控工具并能周期性地进行更新,我们因此也可以快速了解服务器的运行状态。
基本用法
top [选项]
常用的选项如下所示:
选项 | 解释 |
---|---|
-b | 以批处理模式进行操作 |
-c | 显示完整的命令信息 |
-d | 更新时间间隔 |
-n number | 指定循环显示的次数 |
-u number/name | 显示指定用户ID/用户名的进程 |
-p pid | |
-s | 安全模式 |
-S | 累积模式 |
交互模式
交换械是指在top显示相关信息时,在不影响显示信息的同时进行的其他操作等,详细如下所示:
快捷键 | 说明 |
---|---|
f | 添加或删除进程信息项 |
k | 终止进程,需要输入PID号 |
r | 更改进程优先级 |
S | 切换到累积模式 |
s或d | 更改刷新时间 |
m | 切换显示内存信息 |
t | 切换显示进程和CPU状态信息 |
c | 切换显示命令名称和完整命令行 |
P | 根据CPU使用率大小进行排序 |
T | 根据时间/累计时间进行排序 |
W | 将当前设置保存到~/.toprc文件中 |
q | 退出top进程 |
b | 将当前进程进行高亮显示 |
l | 是否显示系统负载信息和启动时间 |
1(数字1) | 显示每个CPU核心单独的性能数据 |
用法示例
1、第一个示例:
示例详解
系统级信息
进程指标信息
指标 | 说明 | 参考值 |
---|---|---|
PID | 进程ID | |
PRID | 父进程ID | |
USER | 进程所属用户,启用进程的用户名 | |
PR | Priority缩写,进程优先级 | |
NI | Nice缩写,用于调节优先级,与PR有关,越小越早被执行 | -20~20 正数优先级降低,负数优先级提升 |
VIRT | 进程虚拟内存使用量 | |
RES | 进程使用且未被交换出的物理内存使用量 | |
SHR | 共享内存使用量 | |
S | 进程状态 | R:运行 S:睡眠 D:不可中断的睡眠状态 T:跟踪、停止 僵尸 |
%CPU | CPU使用率 | |
%MEM | 内存使用率 | |
TIME+ | 进程的CPU使用时间累积和 | 单位为1/100秒 |
TIME | 进程占用的CPU时间累积和 | 单位为秒 |
RUSER | 进程的实际用户名,即登录到Shell所用用户名 | |
UID | 进程所属用户的ID | |
GROUP | 进程所属的组名 | |
TTY | 启动进程的终端名称 | |
P | 进程最近一次所使用的CPU编号 | |
SWAP | 进程使用且被交换出来的虚拟内存使用量 | |
CODE | 进程对应的可执行代码所占用的物理内存量 | |
DATA | 进程对应的数据部分(数据段、栈等)所占用的物理内存量 | |
nFLT | 页面错误次数 | |
nDRT | 最后一次写入到目前为止被修改过的页面数 | |
WCHAN | 如果进程处理睡眠状态,则显示睡眠状态中系统调用名 | |
Flags | 进程标志 | |
COMMAND | 进程所对应的命令名 |
iostat
iostat命令主要用来CPU的统计信息和每个设备、硬盘的IO统计信息
基本用法
iostat [选项] [采样间隔] [采样样本数]
常用的选项如下所示:
选项 | 解释 |
---|---|
-c | 仅显示CPU的统计信息,即单独输出CPU的平均统计信息 |
-d | 仅显示设备的统计信息 |
-h | 将各设备的统计信息以易于查看的方式进行显示 |
-k | 以kb/s显示统计信息 |
-m | 以mb/s显示统计信息 |
-t | 增加显示时间戳 |
-x | 显示额外信息 |
-y | 忽略自系统启动以来的第一行信息 |
用法示例
1、iostat示例
2、查看硬盘的IO信息
各指标详细解释如下所示:
指标 | 说明 |
---|---|
tps | 每秒进程的I/O读写请求总数 |
MB_read/s | 每秒读取的字节数,单位为MB/s |
MB_wrtn/s | 每秒写入的字节数,单位为MB/s |
MB_read | 读取的字节总数 ,单位为MB |
MB_wrtn | 写入的字节总数 ,单位为MB |
看到第一组第一行的数字非常大,是否就可以断定I/O存在问题了? 在iostat输出的第一组第一行数据,
表示是自Linux系统启动刚才本命令执行这段期间的统计结果,而后面的几组数据才真正表示了在iostat
采样周期的统计结果,而如果要排除第一组的数据可以使用选项 -y
3、显示额外的统计信息
各指标详细解释如下所示:
指标 | 说明 |
---|---|
rrqm/s | 每秒对该设备的读取请求总次数 |
wrqm/s | 每秒对该设备的写入请求总次数 |
r/s | 每秒完成读取的I/O次数 |
w/s | 每秒完成写入的I/O次数 |
rMB/s | 每秒实际读取的大小,单位为MB |
wMB/s | 每秒实际写入的大小,单位为MB |
avgrq-sz | 平均每次I/O操作的数据大小 |
avgqu-sz | 平均等待处理I/O操作的队列长度 |
await | 平均每次I/O请求等待时间(含等待时间和处理时间),一般应低于5ms |
r_await | 每次读取I/O请求等待时间 |
w_await | 每次写入I/O请求等待时间 |
svctm | 平均每次I/O操作的服务时间 |
%util | 周期内用于I/O操作的时间比率,即I/O队列非空的时间比率,即(r/s+w/s )*(svctm/1000) |
需要关注的参数如下所示:
- %util:表示磁盘的忙碌情况,较大则代表I/O请求太多,硬盘可能存在瓶颈,一般不超过80%
- await大于svctm:差值越小,则说明队列时间越短,反之差值越大,则队列时间越长,系统可能存在问题
- svctm接近await,则说明I/O几乎没有等待时间
- await远大于svctm,则说明I/O队列太长,则响应时间会变长
4、显示CPU统计信息
各指标详细解释如下所示:
指标 | 说明 |
---|---|
%user | 显示CPU在用户级(应用程序)执行时的时间占比 |
%nice | 显示CPU在用户级(应用程序)使用NICE权限执行时的时间占比 |
%system | 显示CPU在系统级(内核)执行时的时间占比 |
%iowait | 显示CPU在空闲状态期间未完成的磁盘I/O时间占比 |
%steal | 显示hypervisor服务另一个虚拟处理器时,虚拟CPU等待实际CPU的时间占比 |
%idle | 显示CPU在空闲状态期间系统未完成的磁盘I/O时间占比 |
- 如果steal值比较高的话,需要扩容虚拟机,这是因为服务器上的另一个虚拟机可能拥有更大更多的CPU时间片而占用了你的虚拟机的CPU时间
- 如果iowait值比较高,则可能硬盘存在I/O瓶颈
- 如果idle值比较高,则表示CPU长期处于空闲状态
- 如果idle值比较高但系统响应慢时,则有可能是CPU在等待内存分配,可考虑扩容内存容量
- 如果idle值如果长期低于10%,则CPU处理能力是瓶颈
本文同步在微信订阅号上发布,如各位小伙伴们喜欢我的文章,也可以关注我的微信订阅号:woaitest,或扫描下面的二维码添加关注: