一、系统调优概述
- 系统的运行状况: CPU -> MEM -> DISK*-> NETWORK -> 应用程序调优
- 分析是否有瓶颈(依据当前应用需求)
- 调优(把错误的调正确)
性能优化就是找到系统处理中的瓶颈以及去除这些的过程。
性能优化其实是对OS 各子系统达到一种平衡的定义,这些子系统包括:
- CPU
- Memory
- IO
- Network
这些子系统之间关系是相互彼此依赖的,任何一个高负载都会导致其他子系统出现问题。
比如:
- 大量的网页调入请求导致内存队列的拥塞;
- 网卡的大吞吐量可能导致更多的 CPU 开销;
- 大量的 CPU 开销又会尝试更多的内存使用请求;
- 大量来自内存的磁盘写请求可能导致更多的 CPU 以及 IO 问题;
所以要对一个系统进行优化,查找瓶颈来自哪个方面是关键,虽然看似是某一个子系统出现问题,其实有;
- 可能是别的子系统导致的。
- 调优就像医生看病,因此需要你对服务器所有地方都了解清楚。
当系统出了问题,运行卡,如何快速找出以下进程:
- 找出系统中使用CPU最多的进程?
- 找出系统中使用内存最多的进程?
- 找出系统中对磁盘读写最多的进程?
- 找出系统中使用网络最多的进程?
二、查看CPU负载相关工具,找出系统中使用CPU最多的进程
1、查看CPU负载相关工具
实战1:找出系统中使用CPU最多的进程?
uptime命令:
[root@localhost ~]# uptime
13:22:30 up 8 min, 1 users, load average: 0.14, 0.38, 0.25
其内容如下:
12:38:33 |
当前时间 |
up 50days |
系统运行时间 ,说明此服务器连续运行50天了 |
1 user |
当前登录用户数 |
load average: 0.06, 0.60, 0.48 |
系统负载,即任务队列的平均长度。 三个数值分别为 1分钟、5分钟、15分钟前到现在的平均值。 |
例1:找出前当系统中,CPU负载过高的服务器?
服务器1: load average: 0.15, 0.08, 0.01 1核
服务器2: load average: 4.15, 6.08, 6.01 1核
服务器3: load average: 10.15, 10.08, 10.01 4核
答案:服务器2
如果服务器的CPU为1核心,则load average中的数字 >=3 负载过高,如果服务器的CPU为4核心,则load average中的数字 >=12 负载过高。
经验:单核心,1分钟的系统平均负载不要超过3,就可以,这是个经验值。
任务队列的平均长度是什么?
大厅排除买票:
队列数为3时,如图:
2.找出系统中使用CPU最多的进程?
方法1:使用top命令
运行top , 找出使用CPU最多的进程 ,按大写的P,可以按CPU使用率来排序显示
3.按照实际使用CPU,从大到小排序显示所有进程列表
[root@stu003 ~]# ps -aux --sort -pcpu | more #按cpu降序排序
查看
注: -pcpu 可以显示出进程绝对的路径,方便找出木马程序运行的路径。
查看 -pcpu 帮助:
[root@xuegod63 ~]# man ps #然后搜索 pcpu ,找到下面内容
pcpu cpu utilization # cpu利用率
utilization[英][ˌju:təlaɪ'zeɪʃn] #利用
查看CPU信息:
[root@xuegod63 ~]# cat /proc/cpuinfo
processor : 0
vendor_id : GenuineIntel
cpu family : 6
model : 42
model name : Intel(R) Core(TM) i7-2670QM CPU @ 2.20GHz
stepping : 7
cpu MHz : 2195.039
cache size : 6144 KB
physical id : 0
siblings : 4
core id : 0
cpu cores : 4
apicid : 0
initial apicid : 0
fpu : yes
fpu_exception : yes
cpuid level : 13
wp : yes
flags : fpu vme de pse tsc msr pae mce cx8 apic mtrr pge mca cmov pat pse36 clflush dts mmx fxsr sse sse2 ss ht syscall nx rdtscp
lm constant_tsc arch_perfmon pebs bts xtopology tsc_reliable nonstop_tsc aperfmperf unfair_spinlock pni pclmulqdq ssse3 cx16 sse4_1
sse4_2 x2apic popcnt aes xsave avx hypervisor lahf_lm ida arat epb xsaveopt pln pts dts
bogomips : 4390.07
clflush size : 64
cache_alignment : 64
address sizes : 40 bits physical, 48 bits virtual
power management:
processor : 1
。。。
processor : 2
。。。
processor : 3 #说明本机器支持4个CPU
扩展:ps 中 VIRT、RES和SHR的含意:
VIRT:virtual memory usage 虚拟内存
- 进程“需要的”虚拟内存大小,包括进程使用的库、代码、数据等;
- 假如进程申请100m的内存,但实际只使用了10m,那么它会增长100m,而不是实际的使用量。
RES:resident memory usage 常驻内存
- 进程当前使用的内存大小,但不包括swap out;
- 包含其他进程的共享;
- 如果申请100m的内存,实际使用10m,它只增长10m,与VIRT相反;
- 关于库占用内存的情况,它只统计加载的库文件所占内存大小。
SHR:shared memory 共享内存
- 除了自身进程的共享内存,也包括其他进程的共享内存;
- 虽然进程只使用了几个共享库的函数,但它包含了整个共享库的大小;
- 计算某个进程所占的物理内存大小公式:RES – SHR;
- swap out后,它将会降下来。
4. CPU专用的mpstat
[root@xuegod70 ~]# rpm -qf `which mpstat`
sysstat-10.1.5-13.el7.x86_64
[root@xuegod70 ~]# mpstat
Linux 3.10.0-693.el7.x86_64 (xuegod70.cn) 07/06/2018 _x86_64_ (4 CPU) 11:44:54 AM CPU %usr %nice %sys %iowait %irq %soft %steal %guest %gnice %idle
11:44:54 AM all 0.04 0.00 0.04 0.03 0.00 0.00 0.00 0.00 0.00 99.88
- nice:低优先级进程使用CPU占比。nice值大于0。
- sys:内核空间CPU使用占比。
- iowait:CPU等待IO占比。
- irq:CPU处理硬中断占比。
- soft:CPU处理软中断占比。
- idle:CPU空闲时间占比。
- guest与steal与虚拟机有关,暂不涉及。
[root@xuegod70 ~]# mpstat -P ALL #查看所有CPU运行状态
Linux 3.10.0-693.el7.x86_64 (xuegod70.cn) 07/06/2018 _x86_64_ (4 CPU) 11:53:32 AM CPU %usr %nice %sys %iowait %irq %soft %steal %guest %gnice %idle
11:53:32 AM all 0.04 0.00 0.04 0.03 0.00 0.00 0.00 0.00 0.00 99.88
11:53:32 AM 0 0.06 0.00 0.03 0.03 0.00 0.00 0.00 0.00 0.00 99.88
11:53:32 AM 1 0.05 0.00 0.03 0.02 0.00 0.00 0.00 0.00 0.00 99.90
11:53:32 AM 2 0.03 0.00 0.07 0.05 0.00 0.00 0.00 0.00 0.00 99.85
11:53:32 AM 3 0.03 0.00 0.05 0.03 0.00 0.00 0.00 0.00 0.00 99.88
[root@xuegod70 ~]# mpstat -P ALL 5 2 #表示每5秒产生一个报告,总共产生2个
Linux 3.10.0-693.el7.x86_64 (xuegod70.cn) 07/06/2018 _x86_64_ (4 CPU) 11:53:37 AM CPU %usr %nice %sys %iowait %irq %soft %steal %guest %gnice %idle
11:53:42 AM all 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 100.00
11:53:42 AM 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 100.00
11:53:42 AM 1 0.00 0.00 0.20 0.00 0.00 0.00 0.00 0.00 0.00 99.80
11:53:42 AM 2 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 100.00
11:53:42 AM 3 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 100.00 11:53:42 AM CPU %usr %nice %sys %iowait %irq %soft %steal %guest %gnice %idle
11:53:47 AM all 0.00 0.00 0.05 0.00 0.00 0.00 0.00 0.00 0.00 99.95
11:53:47 AM 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 100.00
11:53:47 AM 1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 100.00
11:53:47 AM 2 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 100.00
11:53:47 AM 3 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 100.00 Average: CPU %usr %nice %sys %iowait %irq %soft %steal %guest %gnice %idle
Average: all 0.00 0.00 0.03 0.00 0.00 0.00 0.00 0.00 0.00 99.97
Average: 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 100.00
Average: 1 0.00 0.00 0.10 0.00 0.00 0.00 0.00 0.00 0.00 99.90
Average: 2 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 100.00
Average: 3 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 100.00
三、查看Memory运行状态相关工具,找出系统中使用内存最多的进程
1、查看Memory运行状态相关工具
在CentOS6及以前的版本中,free命令输出是这样的:
[root@stu003 ~]# free
total used free shared buffers cached
Mem: 1785856 1749352 36504 0 137504 933196
-/+ buffers/cache: 678652 1107204
Swap: 2818040 0 2818040 第一行:
系统内存主要分为四部分:used(程序已使用内存),free(空闲内存),buffers(buffer cache),cached(Page cache)。
系统总内存total = used + free; buffers和cached被算在used里,因此第一行系统已使用内存used = buffers + cached + 第二行系统已使用内存used,
由于buffers和cached在系统需要时可以被回收使用,因此系统可用内存 = free + buffers + cached;
shared为程序共享的内存空间,往往为0。
第二行:
正因为buffers和cached在系统需要时可以被回收使用,因此buffer和cached其实可以可以算作可用内存,因此:
系统可用内存,即第二行的free = 第一行的free + buffers + cached。
系统已使用内存,即第二行的used = total - 第二行free
第三行:
swap内存交换空间使用情况
CentOS7及以后free命令的输出如下:
[root@xuegod70 ~]# free -h
total used free shared buff/cache available
Mem: 976M 105M 125M 12M 744M 659M
Swap: 1.0G 288K 1.0G buffer和cached被合成一组,加入了一个available,关于此available,文档上的说明如下:
MemAvailable: An estimate of how much memory is available for starting new applications, without swapping.
即系统可用内存,之前说过由于buffer和cache可以在需要时被释放回收,系统可用内存即 free + buffer + cache,在CentOS7之后这种说法并不准确,因为并不是所有的buffer/cache空间都可以被回收。
即available = free + buffer/cache - 不可被回收内存(共享内存段、tmpfs、ramfs等)。
因此在CentOS7之后,用户不需要去计算buffer/cache,即可以看到还有多少内存可用,更加简单直观。
buffers #缓存从磁盘读出的内容
cached #缓存需要写入磁盘的内容
当物理内存不够用的时候,内核会把非活跃的数据清空。
2. 通过/proc目录,查看非活跃的内存
/proc文件系统下的多种文件提供的系统信息不是针对某个特定进程的,而是能够在整个系统范围的上下文中使用。可以使用的文件随系统配置的变化而变化。
[root@xen ~]# cat /proc/meminfo
MemTotal: 1720320 kB
MemFree: 909000 kB
Buffers: 41500 kB
Cached: 385016 kB
SwapCached: 0 kB
Active: 347340 kB 活跃内存,指进程一直读写的内存空间
Inactive: 346992 kB 非活跃内存
注:当内存不够用时,kernel总是把不活跃的内存交换到swap空间。如果inactive内存多时,加swap空间可以解决问题,而active多,则考虑加内存。
HighTotal: 981512 kB
HighFree: 318568 kB
LowTotal: 738808 kB
3.实战:找出系统中使用内存最多的进程?
方法一:使用top命令
运行top , 然后按下大写的M 可以按内存使用率来排序显示
方法二:按照实际使用内存,从大到小排序显示所有进程列表
[root@xuegod63 ~]# ps -aux --sort -rss | more 内存降序排序(去掉减号就是升序)
或:
[root@xuegod63 ~]# ps -aux --sort -rss > a.log
四、查看IO运行状态相关工具,找出系统中对磁盘读写最多的进程
1、I/O调优相关查看工具
查看系统块大小 RHEL 6
[root@xuegod63 ~]# tune2fs -l /dev/sda1 | grep size
Filesystem features: has_journal ext_attr resize_inode dir_index filetype needs_recovery extent flex_bg sparse_super huge_file uninit_bg dir_nlink extra_isize
Block size: 1024 # 为1个字节 。 一个扇区512字节。
RHEL 7
[root@xuegod63 ~]# xfs_growfs -l /dev/sda1 |grep bsize
data = bsize=4096 blocks=51200, imaxpct=25
naming =version 2 bsize=4096 ascii-ci=0 ftype=1
log =internal bsize=4096 blocks=855, version=2
2、找出系统中对磁盘读写最多的进程
实战:查看系统中哪个磁盘或分区最繁忙?
对于这个服务器,8块磁盘中,哪个硬盘最繁忙?哪个分区最繁忙?
通过iostat命令查看IO是否存在瓶颈
安装iostat:
[root@xuegod63 ~]# rpm -ivh /mnt/Packages/sysstat-10.1.5-12.el7.x86_64.rpm
常用参数:
-d 仅显示磁盘统计信息
-k 以K为单位显示每秒的磁盘请求数,默认单位块.
-p device | ALL 用于显示块设备及系统分区的统计信息. [root@xuegod63 ~]# iostat -d -k -p /dev/sda
Linux 2.6.32-220.el6.x86_64 (xuegod63.cn) 03/20/2017 _x86_64_ (4 CPU) Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn
sda 6.64 167.01 18.53 301418 33437
sda1 0.33 1.28 0.00 2317 9
sda2 6.03 164.53 18.52 296949 33428
sda3 0.18 0.80 0.00 1452 0
注:
每列含意:
kB_read/s 每秒从磁盘读入的数据量,单位为K.
kB_wrtn/s 每秒向磁盘写入的数据量,单位为K.
kB_read 读入的数据总量,单位为K.
kB_wrtn 写入的数据总量,单位为K.
测试: 给磁盘写入一些内容, 写入时尽可能不读磁盘?
[root@xuegod63 ~]# dd if=/dev/zero of=a.txt bs=10M count=1000;sync
读入的数据用/dev/zero , /dev/zero不会读磁盘的。
sync #把内存中的数据快速写到磁盘上。只做dd不执行sync,不容易看不出写入效果
这一招学到手:1 [root@xuegod63 ~]# iostat -p sda -dk
Linux 2.6.32-220.el6.x86_64 (xuegod63.cn) 03/03/2017 _x86_64_ (4 CPU) Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn
sda 6.07 128.02 463.04 298190 1078577
sda1 0.25 0.99 0.00 2317 9
sda2 5.60 126.10 463.04 293721 1078568
五、查看系统整体运行状态
1、查看内存及系统整体运行状态:
vmstat :命令是最常见的Linux/Unix监控工具,可以展现给定时间间隔的服务器的状态值,包括服务器的CPU使用率,MEM内存使用,MSwap虚拟内存交换情况,IO读写情况。
使用vmstat可以看到整个机器的CPU,内存,IO的使用情况,而不是单单看到各个进程的CPU使用率和内存使用率。 比top命令节省资源。
注:当机器运行比较慢时,建议大家使用vmstat查看运行状态,不需要使用top,因top使用资源比较多。
[root@xuegod70 ~]# vmstat
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
r b swpd free buff cache si so bi bo in cs us sy id wa st
1 0 288 436628 656 454916 0 0 2 18 19 17 0 0 100 0 0
vmstat每个字段含义说明
类别 |
项目 |
含义 |
说明 |
Procs(进程) |
r |
等待执行的任务数 |
展示了正在执行和等待cpu资源的任务个数。当这个值超过了cpu个数,就会出现cpu瓶颈。 |
B |
等待IO的进程数量 |
|
|
Memory(内存) |
swpd |
正在使用虚拟的内存大小,单位k |
|
free |
空闲内存大小 |
|
|
buff |
已用的buff大小,对块设备的读写进行缓冲 |
|
|
cache |
已用的cache大小,文件系统的cache |
|
|
inact |
非活跃内存大小,即被标明可回收的内存,区别于free和active |
具体含义见:概念补充(当使用-a选项时显示) |
|
active |
活跃的内存大小 |
具体含义见:概念补充(当使用-a选项时显示) |
|
Swap |
si |
每秒从交换区写入内存的大小(单位:kb/s) |
|
so |
每秒从内存写到交换区的大小 |
|
|
IO |
bi |
每秒读取的块数(读磁盘) |
现在的Linux版本块的大小为1024bytes |
bo |
每秒写入的块数(写磁盘) |
|
|
system |
in |
每秒中断数,包括时钟中断 |
这两个值越大,会看到由内核消耗的cpu时间会越多 |
cs |
每秒上下文切换数 |
||
CPU(以百分比表示) |
Us |
用户进程执行消耗cpu时间(user time) |
us的值比较高时,说明用户进程消耗的cpu时间多,但是如果长期超过50%的使用,那么我们就该考虑优化程序算法或其他措施了 |
Sy |
系统进程消耗cpu时间(system time) |
sys的值过高时,说明系统内核消耗的cpu资源多,这个不是良性的表现,我们应该检查原因。 |
|
Id |
空闲时间(包括IO等待时间) |
|
|
wa |
等待IO时间 |
Wa过高时,说明io等待比较严重,这可能是由于磁盘大量随机访问造成的,也有可能是磁盘的带宽出现瓶颈。 |
2、使用sar命令记录系统一段时间的运行状态
[root@xuegod63 ~]# rpm -ivh /mnt/Packages/sysstat-10.1.5-12.el7.x86_64.rpm
或:
[root@xuegod63 ~]# yum -y install sysstat
sysstat 工具包------可以把检查到的信息保存下来! 存在/var/log/sa目录下,文件名为sa当前日期
sar 默认显示每10分钟统计一次状态信息 (从装sysstat包开始)
sar 命令行的常用格式:
sar [options] [-A] [-o file] t [n]
在命令行中,n 和t 两个参数组合起来定义采样间隔和次数,t为采样间隔,是必须有的参数,n为采样次数,是可选的,默认值是1,-o file表示将命令结果以二进制格式存放在文件中,file 在此处不是关键字,是文件名。options 为命令行选项,sar命令的选项很多,下面只列出常用选项:
下面只列出常用选项:
-A:所有报告的总和。
- -n:网络接口的情况。
- -u:CPU利用率
- -v:进程、I节点、文件和锁表状态。
- -d:硬盘使用报告。
- -r:没有使用的内存页面和硬盘块。
- -g:串口I/O的情况。
- -b:缓冲区使用情况。
- -a:文件读写情况。
- -c:系统调用情况。
- -R:进程的活动情况。
- -y:终端设备活动情况。
- -w:系统交换活动。
- -o 文件名:打印到屏幕并将采样结果以二进制形式存入当前目录下的文件中。
- -f 文件名:查看之前保存的二进制文件。
- -d 显示磁盘
- -d 1 100 必须得指定次数
- -c 每秒创建进程的个数
- -i 1 10 指定时间间隔
- -P 查看cpu
- -r 查看内存
- -w 每秒上下文切换次数
-o /cpu.sar 保存并显示
-f cpu.sar 读取
例一:使用命令行 sar -u t n
例如,每2秒采样一次,连续采样5次,观察CPU 的使用情况,并将采样结果以二进制形式存入当前目录下的文件cpu.sar中,需键入如下命令:
[root@xuegod63 ~]# sar -u 2 5 -o cpu.sar #屏幕显示以一下内容,同时内容也会写到cpu.sar中
Linux 2.6.32-220.el6.x86_64 (xuegod63.cn) 08/04/2015 _x86_64_ (4 CPU) 10:44:45 PM CPU %user %nice %system %iowait %steal %idle
10:44:47 PM all 0.14 0.00 2.34 0.14 0.00 97.39
10:44:49 PM all 1.08 0.00 1.33 0.36 0.00 97.23
10:44:51 PM all 2.54 0.00 2.16 0.00 0.00 95.29
10:44:53 PM all 0.25 0.00 1.52 0.13 0.00 98.10
10:44:55 PM all 1.52 0.00 1.65 0.28 0.00 96.56
Average: all 1.11 0.00 1.79 0.18 0.00 96.92
在显示内容包括:
- %usr:CPU处在用户模式下的时间百分比。
- %sys:CPU处在系统模式下的时间百分比。
- %wio:CPU等待输入输出完成时间的百分比。
- %idle:CPU空闲时间百分比。
在所有的显示中,我们应主要注意%wio和%idle,%wio的值过高,表示硬盘存在I/O瓶颈,%idle值高,表示CPU较空闲,如果%idle值高但系统响应慢时,有可能是CPU等待分配内存,此时应加大内存容量。%idle值如果持续低于10,那么系统的CPU处理能力相对较低,表明系统中最需要解决的资源是CPU。
实例2:查看二进制文件cpu.sar中的内容
[root@xuegod63 ~]# sar -u -f cpu.sar
Linux 2.6.32-220.el6.x86_64 (xuegod63.cn) 08/04/2015 _x86_64_ (4 CPU) 08:21:43 PM CPU %user %nice %system %iowait %steal %idle
08:21:45 PM all 0.00 0.00 0.72 2.03 0.00 97.25
08:21:47 PM all 0.00 0.00 0.60 0.00 0.00 99.40
08:21:49 PM all 0.13 0.00 0.75 0.00 0.00 99.12
08:21:51 PM all 0.00 0.00 0.75 0.00 0.00 99.25
08:21:53 PM all 0.12 0.00 0.75 0.00 0.00 99.13
注:sar命令即可以实时采样,又可以对以往的采样结果进行查询。
3、查看sar 的计划任务:
[root@xuegod63 ~]#vim /etc/cron.d/sysstat
# Run system activity accounting tool every 10 minutes
# Run system activity accounting tool every 10 minutes
*/10 * * * * root /usr/lib64/sa/sa1 1 1
# 0 * * * * root /usr/lib64/sa/sa1 600 6 &
# Generate a daily summary of process accounting at 23:53
53 23 * * * root /usr/lib64/sa/sa2 -A 生成的日志位置:
# ls /var/log/sa 读取日志:
[root@xuegod63 ~]# ls /var/log/sa #只要安装sar后就会定期收集系统信息
sa04 sa07 sa18
-n:网络接口的情况。
[root@xuegod63 ~]# sar -n DEV -f /var/log/sa/sa04 #查看网络信息
# sar -r -f /var/log/sa/sa27
# sar -b -f /var/log/sa/sa27
# sar -f /var/log/sa/sa27
动态查看:
sar 1 #默认显示CPU状态,1秒显示一次
sar 1 10
sar -P 0 1 10
sar最大特点是可以监控所有状态
sar -r 1 查看内存
sar -n ALL 查看所有