查看Linux操作系统运行状态的命令

时间:2022-04-02 15:19:13

用 'top -i' 看看有多少进程处于 Running 状态,可能系统存在内存或 I/O 瓶颈,用 free 看看系统内存使用情况,swap 是否被占用很多,用 iostat 看看 I/O 负载情况...

还有一种办法是 ps -ef | sort -k7 ,将进程按运行时间排序,看哪个进程消耗的cpu时间最多。

top:
主要参数 
d:指定更新的间隔,以秒计算。 
q:没有任何延迟的更新。如果使用者有超级用户,则top命令将会以最高的优先序执行。 
c:显示进程完整的路径与名称。 
S:累积模式,会将己完成或消失的子行程的CPU时间累积起来。 
s:安全模式。 
i:不显示任何闲置(Idle)或无用(Zombie)的行程。 
n:显示更新的次数,完成后将会退出to 
显示参数: 
PID(Process ID):进程标示号。 
USER:进程所有者的用户名。 
PR:进程的优先级别。 
NI:进程的优先级别数值。 
VIRT:进程占用的虚拟内存值。 
RES:进程占用的物理内存值。 
SHR:进程使用的共享内存值。 
S:进程的状态,其中S表示休眠,R表示正在运行,Z表示僵死状态,N表示该进程优先值是负数。 
%CPU:该进程占用的CPU使用率。 
%MEM:该进程占用的物理内存和总内存的百分比。 
TIME+:该进程启动后占用的总的CPU时间。 
Command:进程启动的启动命令名称,如果这一行显示不下,进程会有一个完整的命令行。 
top命令使用过程中,还可以使用一些交互的命令来完成其它参数的功能。这些命令是通过快捷键启动的。 
<空格>:立刻刷新。 
P:根据CPU使用大小进行排序。 
T:根据时间、累计时间排序。 
q:退出top命令。 
m:切换显示内存信息。 
t:切换显示进程和CPU状态信息。 
c:切换显示命令名称和完整命令行。 
M:根据使用内存大小进行排序。 
W:将当前设置写入~/.toprc文件中。这是写top配置文件的推荐方法。 
free
1.作用 
free命令用来显示内存的使用情况,使用权限是所有用户。 
2.格式 
free [-b-k-m] [-o] [-s delay] [-t] [-V] 
3.主要参数 
-b -k -m:分别以字节(KB、MB)为单位显示内存使用情况。 
-s delay:显示每隔多少秒数来显示一次内存使用情况。 
-t:显示内存总和列。 
-o:不显示缓冲区调节列。 

uptime

18:59:15 up 25 min, 2 users, load average: 1.23, 1.32, 1.21 
现在的时间 
系统开机运转到现在经过的时间 
连线的使用者数量 
最近一分钟,五分钟和十五分钟的系统负载 
参数: -V 显示版本资讯。 

vmstat

procs -----------memory---------- ---swap-- -----io---- --system-- ----cpu---- 
r b swpd free buff cache si so bi bo in cs us sy id wa 
0 1 24980 10792 8296 47316 5 19 205 52 1161 698 26 3 1 70 
1 观察磁盘活动情况 
磁盘活动情况主要从以下几个指标了解: 
bi:表示从磁盘每秒读取的块数(blocks/s)。数字越大,表示读磁盘的活动越多。 
bo:表示每秒写到磁盘的块数(blocks/s)。数字越大,表示写磁盘的活动越多。 
wa:cpu等待磁盘I/O(未决的磁盘IO)的时间比例。数字越大,表示文件系统活动阻碍cpu的情况越严重,因为cpu在等待慢速的磁盘系统提供数据。wa为0是最理想的。如果wa经常大于10,可能文件系统就需要进行性能调整了。 
2 观察cpu活动情况 
vmstat比top更能反映出cpu的使用情况: 
us:用户程序使用cpu的时间比例。这个数字越大,表示用户进程越繁忙。 
sy: 系统调用使用cpu的时间比例。注意,NFS由于是在内核里面运行的,所以NFS活动所占用的cpu时间反映在sy里面。这个数字经常很大的话,就需要注 意是否某个内核进程,比如NFS任务比较繁重。如果us和sy同时都比较大的话,就需要考虑将某些用户程序分离到另外的服务器上面,以免互相影响。 
id:cpu空闲的时间比例。 
wa:cpu等待未决的磁盘IO的时间比例。 

iostat

用于统计CPU的使用情况及tty设备、硬盘和CD-ROM的I/0量 
参数: 
-c 只显示CPU行 
-d 显示磁盘行 
-k 以千字节为单位显示磁盘输出 
-t 在输出中包括时间戳 
-x 在输出中包括扩展的磁盘指标 
avg-cpu: %user %nice %sys %iowait %idle 
20.25 0.18 2.61 76.39 0.57 
%iowait 等待本地I/O时CPU空闲时间的百分比 
%idle 未等待本地I/O时CPU空闲时间的百分比 
Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn 
hda 9.86 284.34 84.48 685407 2036 
每秒传输数(tps)、每秒512字节块读取数(Blk_read/s)、每秒512字节块写入数(Blk_wrtn/s)和512字节块读取(Blk_read)和写入(Blk_wrtn)的总数量。

系统
# uname -a # 查看内核/操作系统/CPU信息 
# head -n 1 /etc/issue # 查看操作系统版本 
# cat /proc/cpuinfo # 查看CPU信息 
# hostname # 查看计算机名 
# lspci -tv # 列出所有PCI设备 
# lsusb -tv # 列出所有USB设备 
# lsmod # 列出加载的内核模块 
# env # 查看环境变量 
资源
# free -m # 查看内存使用量和交换区使用量 
# df -h # 查看各分区使用情况 
# du -sh # 查看指定目录的大小 
# grep MemTotal /proc/meminfo # 查看内存总量 
# grep MemFree /proc/meminfo # 查看空闲内存量 
# uptime # 查看系统运行时间、用户数、负载 
# cat /proc/loadavg # 查看系统负载 
磁盘和分区
# mount | column -t # 查看挂接的分区状态 
# fdisk -l # 查看所有分区 
# swapon -s # 查看所有交换分区 
# hdparm -i /dev/hda # 查看磁盘参数(仅适用于IDE设备) 
# dmesg | grep IDE # 查看启动时IDE设备检测状况 
网络
# ifconfig # 查看所有网络接口的属性 
# iptables -L # 查看防火墙设置 
# route -n # 查看路由表 
# netstat -lntp # 查看所有监听端口 
# netstat -antp # 查看所有已经建立的连接 
# netstat -s # 查看网络统计信息 
进程
# ps -ef # 查看所有进程 
# top # 实时显示进程状态 
用户
# w # 查看活动用户 
# id # 查看指定用户信息 
# last # 查看用户登录日志 
# cut -d: -f1 /etc/passwd # 查看系统所有用户 
# cut -d: -f1 /etc/group # 查看系统所有组 
# crontab -l # 查看当前用户的计划任务 
服务
# chkconfig --list # 列出所有系统服务 
# chkconfig --list | grep on # 列出所有启动的系统服务 
程序
# rpm -qa # 查看所有安装的软件包






vmstat命令是最常见的Linux/Unix监控工具,可以展现给定时间间隔的服务器的状态值,包括服务器的CPU使用率,内存使用,虚拟内存交换情况,IO读写情况。这个命令是我查看Linux/Unix最喜爱的命令,一个是Linux/Unix都支持,二是相比top,我可以看到整个机器的CPU,内存,IO的使用情况,而不是单单看到各个进程的CPU使用率和内存使用率(使用场景不一样)。


一般vmstat工具的使用是通过两个数字参数来完成的,第一个参数是采样的时间间隔数,单位是秒,第二个参数是采样的次数,如:


root@ubuntu:~# vmstat 2 1
procs -----------memory---------- ---swap-- -----io---- -system-- ----cpu----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa
 1  0      0 3498472 315836 3819540    0    0     0     1    2    0  0  0 100  0
2表示每个两秒采集一次服务器状态,1表示只采集一次。


实际上,在应用过程中,我们会在一段时间内一直监控,不想监控直接结束vmstat就行了,例如:


复制代码
root@ubuntu:~# vmstat 2  
procs -----------memory---------- ---swap-- -----io---- -system-- ----cpu----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa
 1  0      0 3499840 315836 3819660    0    0     0     1    2    0  0  0 100  0
 0  0      0 3499584 315836 3819660    0    0     0     0   88  158  0  0 100  0
 0  0      0 3499708 315836 3819660    0    0     0     2   86  162  0  0 100  0
 0  0      0 3499708 315836 3819660    0    0     0    10   81  151  0  0 100  0
 1  0      0 3499732 315836 3819660    0    0     0     2   83  154  0  0 100  0
复制代码
这表示vmstat每2秒采集数据,一直采集,直到我结束程序,这里采集了5次数据我就结束了程序。


好了,命令介绍完毕,现在开始实战讲解每个参数的意思。


r 表示运行队列(就是说多少个进程真的分配到CPU),我测试的服务器目前CPU比较空闲,没什么程序在跑,当这个值超过了CPU数目,就会出现CPU瓶颈了。这个也和top的负载有关系,一般负载超过了3就比较高,超过了5就高,超过了10就不正常了,服务器的状态很危险。top的负载类似每秒的运行队列。如果运行队列过大,表示你的CPU很繁忙,一般会造成CPU使用率很高。


b 表示阻塞的进程,这个不多说,进程阻塞,大家懂的。


swpd 虚拟内存已使用的大小,如果大于0,表示你的机器物理内存不足了,如果不是程序内存泄露的原因,那么你该升级内存了或者把耗内存的任务迁移到其他机器。


free   空闲的物理内存的大小,我的机器内存总共8G,剩余3415M。


buff   Linux/Unix系统是用来存储,目录里面有什么内容,权限等的缓存,我本机大概占用300多M


cache cache直接用来记忆我们打开的文件,给文件做缓冲,我本机大概占用300多M(这里是Linux/Unix的聪明之处,把空闲的物理内存的一部分拿来做文件和目录的缓存,是为了提高 程序执行的性能,当程序使用内存时,buffer/cached会很快地被使用。)


si  每秒从磁盘读入虚拟内存的大小,如果这个值大于0,表示物理内存不够用或者内存泄露了,要查找耗内存进程解决掉。我的机器内存充裕,一切正常。


so  每秒虚拟内存写入磁盘的大小,如果这个值大于0,同上。


bi  块设备每秒接收的块数量,这里的块设备是指系统上所有的磁盘和其他块设备,默认块大小是1024byte,我本机上没什么IO操作,所以一直是0,但是我曾在处理拷贝大量数据(2-3T)的机器上看过可以达到140000/s,磁盘写入速度差不多140M每秒


bo 块设备每秒发送的块数量,例如我们读取文件,bo就要大于0。bi和bo一般都要接近0,不然就是IO过于频繁,需要调整。


in 每秒CPU的中断次数,包括时间中断


cs 每秒上下文切换次数,例如我们调用系统函数,就要进行上下文切换,线程的切换,也要进程上下文切换,这个值要越小越好,太大了,要考虑调低线程或者进程的数目,例如在apache和nginx这种web服务器中,我们一般做性能测试时会进行几千并发甚至几万并发的测试,选择web服务器的进程可以由进程或者线程的峰值一直下调,压测,直到cs到一个比较小的值,这个进程和线程数就是比较合适的值了。系统调用也是,每次调用系统函数,我们的代码就会进入内核空间,导致上下文切换,这个是很耗资源,也要尽量避免频繁调用系统函数。上下文切换次数过多表示你的CPU大部分浪费在上下文切换,导致CPU干正经事的时间少了,CPU没有充分利用,是不可取的。


us 用户CPU时间,我曾经在一个做加密解密很频繁的服务器上,可以看到us接近100,r运行队列达到80(机器在做压力测试,性能表现不佳)。


sy 系统CPU时间,如果太高,表示系统调用时间长,例如是IO操作频繁。


id  空闲 CPU时间,一般来说,id + us + sy = 100,一般我认为id是空闲CPU使用率,us是用户CPU使用率,sy是系统CPU使用率。


wt 等待IO CPU时间。


查看Linux操作系统运行状态的命令

     top命令:https://jingyan.baidu.com/article/4d58d5412917cb9dd4e9c0ed.html