Linux系统中的日常监控知识点

时间:2024-09-14 15:34:02

1.命令熟悉之w

[xiongchao@oc3006745124 Desktop]$ w
 :: up  :,   users,  load average: 1.48, 1.19, 1.11
USER     TTY      FROM              LOGIN@   IDLE   JCPU   PCPU WHAT
xiongcha tty1     :               :    :06m :   .14s pam: gdm-passwo
xiongcha pts/    ::    :50m  .16s  .50s /usr/bin/gnome-
xiongcha pts/    ::    .00s  .03s  .02s w

在这里就只说重要的选项,Load average 中的后面三个数据
第一个数值表示1分钟内系统的平均负载值;第二个数值表示5分钟内系统的平均负载值;第三个数值表示15分钟系统的平均负载值
当然这个数值越大,就代表你的服务器压力越大
其衡量的标准是,CPU的数量是8,Load average相对应的数值小于8,则正常

2.查看Cpu个数,cat /proc/cpuinfo

processor    :
vendor_id    : GenuineIntel
cpu family    :
model        :
model name    : Intel(R) Core(TM) i7-4600M CPU @ .90GHz
stepping    :
microcode    :
cpu MHz        : 800.000
cache size    :  KB
physical id    :
siblings    :
core id        :
cpu cores    :
apicid        :
initial apicid    :
fpu        : yes
fpu_exception    : yes
cpuid level    :
wp        : yes
flags        : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc arch_perfmon pebs bts rep_good xtopology nonstop_tsc aperfmperf pni pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2 ssse3 fma cx16 xtpr pdcm pcid sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand lahf_lm abm ida arat epb xsaveopt pln pts dtherm tpr_shadow vnmi flexpriority ept vpid fsgsbase bmi1 avx2 smep bmi2 erms invpcid
bogomips    : 5787.03
clflush size    :
cache_alignment    :
address sizes    :  bits physical,  bits virtual
power management:

其中processor后面的数字就是CPU的个数
physical id显示物理CPU的个数

3.命令熟悉之vmstat

[xiongchao@oc3006745124 Desktop]$ vmstat
procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu-----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
                                       

w是判断系统的压力问题,那么vmstat是判断具体点的压力在那一个位置(CPU,内存,磁盘等)
重点是 r b si so bi bo
r :表示运行和等待CPU时间片的进程数,如果长期大于服务器的个数,则说明cpu不够用了
b :表示等待资源的进程数,比如等待I/O 内存等
buff:缓冲大小,(即将写入磁盘的)
cache:缓存大小,(从磁盘中读取的)
si:由交换区写入到内存的数据量
so:由内存写入到交换区的数据量
bi:从块设备读取数据的量(读磁盘)
bo:从块设备写入数据的量(写磁盘)

4.命令熟悉之top 显示进程所占系统资源

[xiongchao@oc3006745124 Desktop]$ top

top - :: up  :,   users,  load average: 1.47, 1.23, 1.24
Tasks:  total,    running,  sleeping,    stopped,    zombie
Cpu(s):  8.3%us,  5.9%sy,  0.0%ni, 85.6%id,  0.1%wa,  0.0%hi,  0.1%si,  0.0%st
Mem:   7875568k total,  7360468k used,   515100k free,    68920k buffers
Swap:  8388604k total,    89192k used,  8299412k free,  1243564k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND
 qemu          6616m .2g  S :43.43 qemu-kvm
 xiongcha      1294m 221m  51m S  :37.59 firefox
  root           171m  27m  15m S  :11.88 Xorg
 xiongcha       289m  12m  S  :00.39 gnome-terminal
  root                S  :38.33 symcfgd
  root           588m  16m  S  :56.86 BESClient
  root           301m 252m  S  :12.29 rtvscand
  dbus             S  :13.23 dbus-daemon
  root           100m   S  :09.69 NetworkManager
  root               S  :07.55 wcstatusd
  root        -       S  :28.23 sav-limitcpu
  root        -       S  :27.92 sav-limitcpu
  xiongcha       620m 162m  32m S  :56.46 sametime
 xiongcha       444m 118m  57m S  :35.13 lnotes
 xiongcha       689m 191m  78m S  :26.96 notes2
 xiongcha       513m  33m  16m S  :01.83 plugin-containe
 xiongcha          R  :00.10 top  

改命令用于动态监控进程所占系统资源,每隔3秒变一次,这个命令 %CPU, %MEM, COMMAND
在top状态下,按住shift + m 可以按照内存使用大小排序。按数字1 可以列出各颗Cpu的使用状态
top -bn1 它表示非动态打印系统资源使用情况

5.命令熟悉之sar监控系统状态

Average:        IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s
Average:           lo     11.99     11.99     10.99     10.99      0.00      0.00      0.00
Average:         eth0      0.00      0.00      0.00      0.00      0.00      0.00      0.00
Average:        wlan0      5.18      3.61      5.27      0.74      0.00      0.00      0.00
Average:         pan0      0.00      0.00      0.00      0.00      0.00      0.00      0.00
Average:       virbr1      0.00      0.00      0.00      0.00      0.00      0.00      0.00
Average:    virbr1-nic      0.00      0.00      0.00      0.00      0.00      0.00      0.00
Average:       virbr0      1.81      2.49      4.07      2.31      0.00      0.00      0.00
Average:    virbr0-nic      0.00      0.00      0.00      0.00      0.00      0.00      0.00
Average:        vnet0      1.81      2.87      4.10      2.33      0.00      0.00      0.00
# 仅仅列出部分,太多内容

IFACE 这列表示设备名称
rxpck/s 表示每秒进入收取的包的数量
txpck/s 表示每秒发送出去的包的数量
rxbyt/s 表示每秒收取的数据量(单位Byte)
txbyt/s表示每秒发送的数据量

查看历史负载 sar -q
可以查看某一天的网卡流量历史,使用-f选项,(sar -n DEV -f /var/log/sa/sa21)后面跟文件名,如果你的系统格式Redhat或者CentOS那么sar的库文件一定是在/var/log/sa/目录下的

6.命令熟悉之free查看内存使用状况

[xiongchao@oc3006745124 Desktop]$ free
             total       used       free     shared    buffers     cached
Mem:
-/+ buffers/cache:
Swap:                

free中,剩余533492. 其实真正剩余并不是这个533492, 而是第二行的1860684, 真正使用的也是第二行的1860684
因为系统初始化时,就已经分配出很大一部分内存给缓存,这部分缓存用来随时提供给程序使用
如果程序不用,那这部分内存就空闲
所以,查看内存使用多少,剩余多少请看第二行的数据

7.命令熟悉之ps查看系统进程

[xiongchao@oc3006745124 Desktop]$ ps aux
USER       PID %CPU %MEM    VSZ   RSS TTY      STAT START   TIME COMMAND
root              ?        Ss   :   : /sbin/init
root                 ?        S    :   : [kthreadd]
root                 ?        S    :   : [migration/]
root                 ?        S    :   : [ksoftirqd/]
root                 ?        S    :   : [stopper/]
root                 ?        S    :   : [watchdog/]
#仅显示部分

PID :进程的id,这个id很有用,在linux中内核管理进程就得靠pid来识别和管理某一个程,比如我想终止某一个进程,则用 ‘kill  进程的pid 有时并不能杀掉,则需要加一个-9选项了 kill  -9  进程pid

STAT :表示进程的状态,进程状态分为以下几种(不要求记住,但要了解)

D 不能中断的进程(通常为IO)

R 正在运行中的进程

S 已经中断的进程,通常情况下,系统中大部分进程都是这个状态

T 已经停止或者暂停的进程,如果我们正在运行一个命令,比如说 sleep 10 如果我们按一下ctrl -z 让他暂停,那么我们用ps查看就会显示T这个状态

W 这个好像是说,从内核2.6xx 以后,表示为没有足够的内存页分配

X 已经死掉的进程(这个好像从来不会出现)

Z 僵尸进程,杀不掉,打不死的垃圾进程,占系统一小点资源,不过没有关系。如果太多,就有问题了。一般不会出现。

< 高优先级进程

N 低优先级进程

L 在内存中被锁了内存分页

s 主进程

l 多线程进程

+ 代表在前台运行的进程

8.命令熟悉之netstat查看网络状态

[xiongchao@oc3006745124 Desktop]$ netstat -lnp
(Not all processes could be identified, non-owned process info
 will not be shown, you would have to be root to see it all.)
Active Internet connections (only servers)
Proto Recv-Q Send-Q Local Address               Foreign Address             State       PID/Program name
tcp                               /ibm-file-shar
tcp                            0.0.0.0:*                                     LIST
Active UNIX domain sockets (only servers)
Proto RefCnt Flags       Type       State         I-Node PID/Program name    Path
unix        [ ACC ]     STREAM     LISTENING       -                   @Symantec-SmcIPC
unix        [ ACC ]     STREAM     LISTENING       /ibus-daemon
#仅显示部分

常用的命令
netstat -lnp (打印当前系统启动哪些端口)
netstat  -an (打印网络连接状况)

9.命令熟悉之tcpdump
如果你的服务器被流量攻击了,用这个命令就可以解决
如果系统没有tcpdump,那么就yum install -y tcpdump 命令去安装一下

[xiongchao@oc3006745124 Desktop]$ tcpdump -nn -i eth0
tcpdump: verbose output suppressed, use -v or -vv for full protocol decode
listening on eth0, link-type EN10MB (Ethernet), capture size  bytes
:: > : Flags [P.], seq :, ack , win , length
:: > : Flags [P.], seq :, ack , win , length 

这里需要关注的只是第三列以及第四列。-i 选项后面跟设备名称
如果你想抓eth1网卡的包,后面则要跟eth1.至于-nn选项的作用是让第三列和第四列显示成IP+端口号的形式
如果不加-nn则显示的是主机名+服务名称