Linux系统管理图文详解超详细精心整理

前言：带你遨游于linux系统管理知识的海洋，沐浴春日里的阳光，循序渐进，看完之后收获满满。

本次讲解基于linux（centos6.5）虚拟机做的测试，centos7估计以后有时间再更新啊。

linux系统管理概要：进程管理、工作管理、系统资源查看、系统定时任务

一、进程管理

进程的查看：ps命令和top命令以及pstree命令，这几个命令还是很常用的，需要重点掌握。

首先讲讲ps命令的使用方法，下面给出例子和截图方便理解，最好自己动手试一试，学习嘛，就得理论+实践相结合，达到最佳效果。

ps aux 显示所有进程[一般配合grep使用]，下面列出aux内容代表的含义：

-a 所有进程
-u 进程所属用户
-x 没有终端控制的进程

例如：
ps aux | grep httpd 查看Apache进程，在这里说明一下，这样使用ps -aux（centos6中会报出一个提示，影响不大）当然也是可行的，不强求记住，linux里面大多数命令后面都接了“-”符号，centos7中使用是没多大区别的。

Linux系统管理图文详解超详细精心整理

ps aux | grep nginx 查看nginx进程

Linux系统管理图文详解超详细精心整理

讲完了ps aux命令后，再接着看下命令：ps -le 表示显示所有进程（显示进程优先级），如下所示列出le的含义：

-l 以长格式显示进程
-e 显示所有进程

PS命令的输出内容以及作用：

内容	作用
USER	该进程是由哪个用户产生的
PID	进程的ID号
%CPU	该进程占用CPU的百分比（占用越高越耗费资源）
%MEM	该进程占用物理内存的百分比（占用越高越耗费资源）
VSZ	该进程占用虚拟内存的大小（单位：KB）
RSS	该进程占用真实内存的大小（单位：KB）
TTY	该进程是在哪个终端运行的。其中tty1-tty7代表本地控制台终端，tty1-tty6本地字符界面终端，tty7图形终端。
pts/0-255	代表虚拟终端。

学完了ps aux和ps -le，是不是觉得已经跃跃欲试了，迫不及待的想看看top命令的真正含义，客观别急，我们还得一步一步来，稳扎稳打才是王道。

top [选项]，下面给出-d|-b|-n的含义：

-d 秒数：指定top命令每隔几秒刷新，默认3秒。
-b：使用批处理模式输出，一般和“-n”选项合用。
-n次数：指定top命令执行的次数，一般和“-b”选项合用。

例如：top -b -n 1 > top.log 定向输出到top.log文件中，可以看到更多的信息

Linux系统管理图文详解超详细精心整理

接着往下看，top命令的交互模式也挺实用的。

top 命令：[在top命令的交互模式可以执行的命令]

？或h	显示交互模式的帮助
P	以CPU使用率排序，默认为此项。
M	以内存使用率排序
N	以PID排序
q	退出top

top命令如下图所示5行，客官请看截图下面的表格，详细的列出了每行命令的含义

Linux系统管理图文详解超详细精心整理

1.任务队列信息：这里列出重点load average ，表示系统平均负载，方便你判断系统的健康状态。

内容	含义
top - 21:03:58	系统时间
3:48	系统运行时长
2 users	当前登录用户个数
load average 0.00, 0.00, 0.00	系统在之前1分钟，5分钟，15分钟的平均负载。一般小于1小时，负载小。如果大于1，系统已经超出负荷[重点]

2.进程信息状态：关注重点0 zombie，僵尸进程。

内容	含义
Tasks: 92 total	系统中的进程总数
1 running	正在运行的进程数
91 sleeping	休眠的进程
0 stopped	正在停止的进程
0 zombie	僵尸进程，如果不是0，需要手工检查僵尸进程[重点]

3.CPU信息：CPU这里也有一个需要关注的重点99.8%id，空闲CPU百分比，用于判断系统健康状态。

内容	含义
Cpu(s): 0.1%us	用户模式占用CPU百分比
0.1%sy	系统模式占用CPU百分比
0.0%ni	改变过优先级的用户进程占用CPU百分比
99.8%id	空闲CPU百分比[重点]
0.0%wa	等待输入/输出占用CPU百分比
0.0%hi	硬中断请求服务占用CPU百分比
0.0%si	软中断请求占用CPU百分比
0.0%st	虚拟时间百分比

4.内存信息：关注重点，空闲物理内存，内存占用越高，你的系统越卡，这时服务器负载压力会增加，就要考虑加内存了，或者其它业务需求，配置多台服务器集群。

内容	含义
Mem: 1918460k total	物理内存总量，单位KB
733684k used	已使用物理内存
1184776k free	空闲物理内存[重点]
62880k buffers	作为缓冲的内存数量

5.交换分区（Swap）信息：Swap分区不要觉得它占用了很多空间，就去调小，这样做是不对的，重点关注空闲交换分区大小。

内容	含义
Swap: 2064376k total	交换分区（虚拟内存）的总大小
0k used	已使用交互分区大小
2064376k free	空闲交换分区大小[重点]
153956k cached	作为缓存的交互分区大小

上面了解了ps aux、ps -le以及top命令的用法，下面就讲讲，进程变为僵尸了，看如何处理，在win中通过任务管理器，linux下通过kill命令去找到进程对应的进程号，去干掉它。

杀死进程[注意：不到万不得已的情况下，不要轻易杀死进程]，别整天天杀杀杀，我们不是一个杀手，而是一个系统管理员啊。

kill [进程ID]
kill -l 查看可用的进程信号

Linux系统管理图文详解超详细精心整理

想要深入掌握kill命令，客官接着往下看，得了解一些常用的信号代表的意义，列出了部分信号的含义，方便使用：

信号代号	信号名称	说明
	SIGHUP	让进程立即关闭,重新读取配置文件后重启.
2	SIGINT	程序终止信号,终止前台进程,相当于快捷键ctrl+c.
8	SIGFPE	发生致命的算术运算错误时发出,不仅包括浮点运算错误,还包括溢出及除数为0等其它所有的算术的错误.
	SIGKILL	立即结束程序的运行,本信号不能被阻塞、处理或忽略,一般用于强制终止进程.
14	SIGALRM	时钟定时信号,alarm函数使用该信号.
15	SIGTERM	正常结束进程的信号,kill命令默认信号.（假如进程已经发生问题，这个信号无法正常终止进程的,此时会尝试SIGKILL信号）.
18	SIGCONT	让暂停的进程恢复执行,不能被阻断.
19	SIGSTOP	可以暂停前台进程,相当于快捷键ctrl+z,不能被阻断.

例如：

kill -1 3033 重启进程
kill -9 3034 强制杀死进程

killall [选项][信号]后面必须接进程名

按进程名杀死进程
-i：交互式，询问是否要杀死某个进程
-I：忽略进程名的大小写

例如：

killall -i -9 httpd 确认是否杀死apache进程

Linux系统管理图文详解超详细精心整理

pkill [选项][信号]后面必须接进程名

按进程名杀死进程
-t终端号：按终端号踢出用户

例如：

pkill -9 -t pts/1 按终端号踢出用户

Linux系统管理图文详解超详细精心整理

修改进程的优先级
进程优先级简介：linux操作系统是一个多用户、多任务的操作系统，linux同时运行着非常多的进程。
CPU在同一个时钟周期内只运行一个指令。进程的优先级决定了每个进程处理的先后顺序。

注意：用户只能修改NI的值，不能直接修改PRI的值

修改NI时的注意事项：[一般不需要修改,了解就行]，如下表格所示

PRI[priority]和NI[nice]这两个值都是优先级，数字越小，代表该进程优先级越高。

NI值范围：-20~19

普通用户可调整NI范围：0~19，而且只能调整自己的进程，只能调高，不能调低

例如：NI为0,只能调大于0

root用户才能设置NI的值为负值

nice [优先级] PID

nice不能修改已经存在的进程的NI的优先级

renice [优先级] PID

修改已经存在的进程的NI的优先级
renice -5 3167

二、工作管理

1.简介：在单个登录终端中（登录的shell中）同时管理多个工作的行为。

2.注意事项如下表格：

当前登录终端只能管理当前终端的工作，不能管理其它登录终端的工作。

放入后台命令必须可持续运行一段时间，便于捕捉操作这个命令。

放入后台命令不能和前台用户有交互或许要前台输入，否则放入后台只能暂停，不能执行。

3.把进程放入后台：

tar -zcf [文件名] /usr/local/tools/ &
命令放入后台，并且在后台执行

top命令执行

使用ctrl+z命令快捷键，放入后台暂停，使用fg命令恢复到前台

4.jobs命令使用

例如：

jobs [-l]
-l:显示工作的PID
注意：“+”最后一个放入后台的工作，“-”倒数第二个放入后台的工作。

5.将暂停的工作恢复到前台执行

%工作号：%号可以省略，注意工作号和PID的区别
工作号是指下图箭头所示的1，2数字：

Linux系统管理图文详解超详细精心整理

fg %工作号
参数：

fg 1 将top命令恢复到前台

6.将暂停的工作恢复到后台执行[注意：top和vi命令是不可以的]

bg %工作号

注意：后台恢复执行的命令不能和前台有交互，否则不能恢复到后台执行。

7.后台命令脱离终端
后台命令脱离登录终端执行的方法：

1.把需要后台执行的命令加入/etc/rc.local文件中[推荐使用]

2.使用系统定时任务，让系统在指定时间执行某个后台命令

3.使用nohup命令[推荐使用]

例如[此时是想到自己之前看RocketMQ官方文档时还不理解nohup这个命令]：
RocketMQ启动Broker服务时，先启动mqnamesrv服务放入后台：nohup sh mqnamesrv &
当然也可以自己写个脚本做个测试，多动手，多动脑，有益身心健康。

脚本事先已经写好了，开启两个远程终端时可以看到for.sh脚本在运行如下图：

Linux系统管理图文详解超详细精心整理

关闭一个远程终端时也可以看到for.sh脚本在运行如下图：

Linux系统管理图文详解超详细精心整理

看完上面两截图的对比，现在大脑中是否有了深刻的印象呢，开启一个终端时使用nohup命令将进程放入后台和开启两个终端关闭其中一个终端做的测试，此时for.sh命令依旧在运行。

三、系统资源查看

首先看下buff[缓冲]和cache[缓存]区别：

buff[缓冲]	加速数据写入硬盘
cache[缓存]	加速数据从硬盘读取

vmstat [刷新延时，刷新次数][重点] 查看系统的健康状态
例如下图：

Linux系统管理图文详解超详细精心整理

每个字段的含义如下表格：

process：进程信息字段	menory：内存信息字段	system：系统信息字段	cpu：cpu信息字段
-r：等待运行的进程数，数量越大，系统越繁忙	-swpd：虚拟内存使用情况（单位：KB）	-in：每秒中断的进程次数	-us：非内核进程消耗cpu运算时间百分比
-b：不可被唤醒的进程数量，数量越大，系统越繁忙	-free：空余内存容量（单位：KB）	-cs：每秒进行的时间切换次数。	sy：内核进程消耗cpu运算时间百分比
	-buff：缓冲内存容量（单位：KB）	-in和-cs这两数越大，系统与连接设备通信非常繁忙。	-id：空闲cpu百分比[重点]
	-cache：缓存内存容量（单位：KB）		-st：被虚拟机所盗用的cpu百分比

开机时内核检测信息：

dmesg命令

例如：

查看CPU信息：dmesg | grep CPU

Linux系统管理图文详解超详细精心整理

free命令查看内存使用状态

free[-b|-k|-m|-g]

Linux系统管理图文详解超详细精心整理

选项如下表格所示：

选项	含义
-b：	以字节为单位显示
-k：	以KB为单位显示，默认为此项
-m：	以MB为单位显示
-g：	以GB为单位显示

查看cpu信息如下图所示：

cat /proc/cpuinfo

Linux系统管理图文详解超详细精心整理

uptime命令
查看系统当前时间，运行时间，登录用户以及负载入下图所示：

Linux系统管理图文详解超详细精心整理

uanme [选项]

例如：uname -a

Linux系统管理图文详解超详细精心整理

选项如下表格：

选项	含义
a：	查看系统所有相关信息
-r：	查看系统内核版本
-s：	查看内核名称

lsb_release命令如下图所示：

lsb_release -a 查看系统版本发行版

Linux系统管理图文详解超详细精心整理

列出进程打开或使用的文件信息

losf[选项]
有些命令就不一一截图了会显得篇幅太长

选项：

命令	内容
-c字符串	只列出以字符串开头的进程打开的文件
-u用户名	只列出某个用户的进程打开的文件
-p pid	列出某个pid进程打开的文件

如下表格所示：

命令	作用
lsof \| more	查询系统中所有进程调用的文件
lsof /sbin/init	查询某个文件被哪个进程调用
lsof -c httpd	查看httpd进程调用了哪些文件
lsof -u root	按用户名查询某用户进程调用的文件

四、系统定时任务

1.at命令一次性定时任务

at访问机制：

如果系统中有/etc/at.allow文件，只有写入/etc/at.allow文件（白名单）中的用户可以使用at命令（/etc/at.deny文件被忽略）

如果系统中没有/etc/at.allow文件，只有/etc/at.deny文件，写入/etc/at.deny文件（黑名单）中的用户不能使用at命令。对root无效

如果系统中两个文件都不存在，只有root用户可以使用at命令

查询是否安装： chkconfig --list | grep atd

Linux系统管理图文详解超详细精心整理

查看atd状态：service atd status

Linux系统管理图文详解超详细精心整理

at [选项] 时间
选项：

-m：at工作完成后，无论是否命令有输出，都用email通知执行at命令的用户
-c工作号：显示at工作的实际内容

例如：at + now 1 minutes

Linux系统管理图文详解超详细精心整理

1分钟后执行hello.sh脚本命令：

Linux系统管理图文详解超详细精心整理

后面时间的几种写法举例：

写法	举例
HH:MM	例如：04:30
HH:MM YYYY-MM-DD	例如：4:30 2018-08-08
HH:MM[AM\|PM\|] [mouth] [date]	例如：4:30 June 01
HH:MM[AM\|PM\|] [minutes\|hours\|days\|week]	例如：now + 5minutes 5分钟执行

atq：查询当前服务器上的at工作，如下图

Linux系统管理图文详解超详细精心整理

atm[工作号]：删除指定的at任务

2.cron命令循环定时任务
crond服务管理与访问控制

查询是否安装：chkconfig --list | grep cron服务
查看crond状态：service crond status

访问控制：[root用户除外，毕竟是超级用户]

当系统中有/etc/cron.allow文件，只有写入此文件的用户可以使用crontab命令，没有写入的用户则不能使用crontab命令。
同样如果有此文件，/etc/cron.deny文件被忽略，/etc/cron.allow文件优先级更高。
当系统中只有/etc/cron.deny文件时，写入此文件的用户不能使用crontab命令，没有写入的用户可以使用crontab命令。

crontab[选项] 循环定时任务

[手工执行定时任务]
选项：

crontab -r 删除当前用户所有的crontab任务
crontab -l 查询crontab任务
crontab -e 编辑crontab定时任务

符号含义如下表所示：

符号含义	例子
“*”：代表任意时间	例如：第一个“*” 每分钟执行一次命令
“,”：代表不连续的时间	例如：“0,9,12,15 * * *命令” 每天的9:00,12:00,15:00都执行一次命令
“-"：代表连续的时间范围	例如：“0 8 * * 1-6命令” 每周一到周六的上午8点执行命令
“*/n”:代表每隔多久执行一次	例如：“/7 * * *命令” 每隔7分钟执行一遍命令

* * * * * *执行的任务，"*"的含义如下表所示：

内容	含义	范围
第一个“*”号	一小时当中的第几分钟	0-59
第二个“*”号	一天当中的第几小时	0-23
第三个“*”号	一个月当中的第几天	1-31
第四个“*”号	一年当中的第几个月	1-12
第五个“*”号	一周当中的星期几	0-7（0和7都代表星期日）

crontab注意事项：

1.六个选项都不能为空，必须填写。不确定则用“*”代替。

2.最小时效为分钟，最大时效是月。

3.定义时，最好不要把日期和星期放在一条定时任务中执行，容易混淆。

4.定时任务中，不管事直接写命令，还是在脚本中写命令，最好都是绝对路径。

系统的crontab设置：

执行系统定时任务的方法

-手工执行定时任务
-通过执行命令：crontab -e 配置

系统定时任务

查看cron文件 ls /etc/cron.*

Linux系统管理图文详解超详细精心整理

进入到cron.daily目录：存放脚本

通过 cd/var/log 可以看到一些旧的日志文件：

Linux系统管理图文详解超详细精心整理

-第一种把需要定时执行的脚本复制到（/etc/cron.[daily|weekly|monthly]目录中的任意一个）[推荐此方法]
-第二种修改/etc/crontab配置文件

3.anacron设置
anacron作用：用来保证在系统关机的时候错过的定时任务，可以在系统开机之后执行。
anacron检测周期：

1.anacron使用一天，七天，一个月作为检测周期

2.在系统的/var/spool/anacron/目录中存在cron.[daily|weekly|monthly]文件，用于记录上次执行cron的时间

3.和当前时间作比较，如果两个时间差超过了anacron的指定时间差，证明cron任务被执行。

Centos 6.x的区别：

1.在老的centos版本中， /etc/cron.[daily|weekly|monthly]这些目录会被cron调用，也会被anacron调用，容易重复执行

2.只会被anacron调用，避免重复执行

3.anacron不再是服务，而是系统命令

-anacron配置文件含义
vi /etc/anacrontab 如下图：

Linux系统管理图文详解超详细精心整理

RANDOM_DELAY=45 最大随机延迟
START_HOURS_RANGE=3-22 执行时间范围：3-22点

天数	强制延迟（分）	工作名称	实际执行命令
1	5	cron.daily	nice run-parts /etc/cron.daily
7	25	cron.weekly	nice run-parts /etc/cron.weekly
@monthly	45	cron.monthly	nice run-parts /etc/cron.monthly

以cron.daily工作来说明执行过程：

1.首先读取/var/spool/anacron/cron.daily中的上一次anacron执行的时间

2.和当前时间作比较，如果两个时间的差值超过一天，就执行cron.daily工作

3.执行这个工作只能在03:00-22:00之间

4.执行工作强制延迟时间为5分钟，再随机延迟0-45分钟

5.使用nice命令指定默认优先级，使用run-parts脚本执行/etc/daily目录中所有可执行文件

PS：忽然想起2年前就开始总结这篇笔记了，前几天阅读当时的笔记，写的太粗糙了，看完之后，下决心整理一篇详细一点的文章，如今在原来的基础上加以雕琢，完成自我超越。

总结完后自己也受益匪浅，读者阅读到了，也有些许收获吧，有错误的地方也希望各位客官帮忙指正，最后的最后，我们一起学习，一起进步，每天都有好心情。

秒客网

Linux系统管理图文详解超详细精心整理

linux系统管理概要：进程管理、工作管理、系统资源查看、系统定时任务

一、进程管理

二、工作管理

三、系统资源查看

四、系统定时任务

相关文章