【Lua / Linux】 Lua 通过 Shell 调用 top 命令获取 CPU/内存 等系统性能信息

时间:2021-11-30 08:08:16

需求分析

前几天接到一个需求,有一个游戏的服务器业务逻辑是使用Lua编写的,运行环境为 Ubuntu14.04,需要做一个统计分析模块,间隔一定时间,记录一次系统的CPU、内存、TCP连接数,在线玩家数,并写入数据库中。
Lua本身是应该是没有权限去获取系统信息的(没有查证),初步设想有两种可行方案:

  • 1.通过C++编写一个信息获取模块,由Lua调用C++模块记录信息。
  • 2.通过Lua 调用 Shell 获取相关信息。

最终决定使用方案二。

关于 Top 命令

在 shell 中直接输入 top 可以进入视图
【Lua / Linux】 Lua 通过 Shell 调用 top 命令获取 CPU/内存 等系统性能信息
这个视图下,数据会间隔一定时间自动刷新,但是我们只需要获取一次数据。
输入 top -n1 即可指定返回一组数据。
我们需要以批处理方式执行命令,以便于让 lua 拿到管道的输出结果。
所以命令改为 top -bn1
【Lua / Linux】 Lua 通过 Shell 调用 top 命令获取 CPU/内存 等系统性能信息
经过测试,会发现,一段时间内,每次执行top -bn1命令,得到的结果数据,是一样的,但是通过其他方式查看资源使用率,确实是一直在变化的。这其实是Linux系统的一个bug,在 Mac OS 下使用 top 命令就没有这个问题。因此,我们无法使用top命令第一次的执行结果来提取数据,必须要执行多次。命令再一次修改为top -bn2,这样shell就会返回两次结果。但是还有一个问题,这两次结果返回,间隔时间比较长,我们还需要再加上一个参数,将命令改为top -bn2 -d 0.1,将结果刷新间隔设为0.1秒,这样shell就会在第0秒返回第一次结果,0.1秒返回第二次结果。这个时间可以按需要设置,程序需要配合该命令做出异步处理。
本文以分析需求、整理思路和实现方法为主,关于 top 命令的详解,请参看本文最后的【附】或者互联网上其他资料。

Lua 调用 Shell

直接看代码

local function excute_cmd(cmd)
    local t = io.popen(cmd)
    local ret = t:read("*all")
    return ret
end

io.popen(cmd) 用于执行命令,t:read("*all*") 用于获取shell的完整输出结果

结果提取

执行 shell, 过滤第一次无用输出

local function get_system_info()
    if system_info == nil or system_info == "" then
        local cmd = "top -bn 2 -i -c -d 0.1"        
        local output = excute_cmd(cmd) 
        -- top result fisrt line is not correct on linux, use second line
        local i, j = string.find( output, "%s\ntop.*" )
        local ret = string.sub(output, i, j)
        system_info = ret
    end
end

正则匹配具体的数值

匹配指定模式的字符串

local function string_match(str, patten)
    local i, j = string.find(str, patten)
    local ret = string.sub(str, i, j)
    return ret
end

匹配指定模式字符串中的数字

local function string_match_num(str, patten)
    local ret = string_match(str,patten)
    local i, j = string.find(ret, "[0-9]+%.*[0-9]*")
    local num = string.sub(ret, i, j)
    return num
end

如此,通过调用 string_match_num(system_info, "[0-9]+%.?[0-9]*%sus,"),就可以提取出 Cpu(s) 0.3 us .... 中的 0.3

CPU 使用率

Linux下CPU的使用率,由几个部分组成:用户空间时间 us、用户进程时间 ni、内核时间 sy、空闲时间 id、软件中断时间 si、硬件中断时间 hi、虚拟机消耗时间 st、等待输入时间 wa
根据以上参数,给出一个计算CPU使用率的公式:
cpu_usage = (us + ni + sy + si + hi + st + wa) / (us + ni + sy + si + hi + st + wa + id)
因此,可以写出如下代码:

local function get_cpu_usage()
    local cpu_user = string_match_num(system_info, "[0-9]+%.?[0-9]*%sus,")
    local cpu_system = string_match_num(system_info, "[0-9]+%.?[0-9]*%ssy,")
    local cpu_nice = string_match_num(system_info, "[0-9]+%.?[0-9]*%sni,")
    local cpu_idle = string_match_num(system_info, "[0-9]+%.?[0-9]*%sid,")
    local cpu_wait = string_match_num(system_info, "[0-9]+%.?[0-9]*%swa,")
    local cpu_hardware_interrupt = string_match_num(system_info, "[0-9]+%.?[0-9]*%shi,")
    local cpu_software_interrupt = string_match_num(system_info, "[0-9]+%.?[0-9]*%ssi,")
    local cpu_steal_time = string_match_num(system_info, "[0-9]+%.?[0-9]*%sst")

    local cpu_total = cpu_user + cpu_nice + cpu_system + cpu_wait + cpu_hardware_interrupt + cpu_software_interrupt + cpu_steal_time + cpu_idle 
    local cpu_time = cpu_user + cpu_nice + cpu_system + cpu_wait + cpu_hardware_interrupt + cpu_software_interrupt + cpu_steal_time

    local cpu_usage = time / total
    return cpu_usage
end

system_info 是上文中通过 get_system_info() 得到的结果。

内存 使用率

原理同上,mem_usage = mem_used / mem_total 直接给出代码:

local function get_mem_usage()
    local mem_total = string_match_num(system_info, "Mem[%d%p%s]*[0-9]+%stotal")
    local mem_used = string_match_num(system_info, "free[%d%p%s]*[0-9]+%sused")
    local mem_usage = mem_used  / mem_total
    return mem_usage
end

[附] Top 命令详解

统计信息

  • 第1行:Top 任务队列信息(系统运行状态及平均负载)
    • 第1段:系统当前时间,例如:16:07:37
    • 第2段:系统运行时间,未重启的时间,时间越长系统越稳定。
      • 格式:up xx days, HH:MM
      • 例如:241 days, 20:11, 表示连续运行了241天20小时11分钟
    • 第3段:当前登录用户数,例如:1 user,表示当前只有1个用户登录
    • 第4段:系统负载,即任务队列的平均长度,3个数值分别统计最近1,5,15分钟的系统平均负载
      • 系统平均负载:单核CPU情况下,0.00 表示没有任何负荷,1.00表示刚好满负荷,超过1侧表示超负荷,理想值是0.7;
      • 多核CPU负载:CPU核数 * 理想值0.7 = 理想负荷,例如:4核CPU负载不超过2.8何表示没有出现高负载。
  • 第2行:Tasks 进程相关信息
    • 第1段:进程总数,例如:Tasks: 231 total, 表示总共运行231个进程
    • 第2段:正在运行的进程数,例如:1 running,
    • 第3段:睡眠的进程数,例如:230 sleeping,
    • 第4段:停止的进程数,例如:0 stopped,
    • 第5段:僵尸进程数,例如:0 zombie
  • 第3行:Cpus CPU相关信息,如果是多核CPU,按数字1可显示各核CPU信息,此时1行将转为Cpu核数
    • 第1段:us 用户空间占用CPU百分比,例如:Cpu(s): 12.7%us,
    • 第2段:sy 内核空间占用CPU百分比,例如:8.4%sy,
    • 第3段:ni 用户进程空间内改变过优先级的进程占用CPU百分比,例如:0.0%ni,
    • 第4段:id 空闲CPU百分比,例如:77.1%id,
    • 第5段:wa 等待输入输出的CPU时间百分比,例如:0.0%wa,
    • 第6段:hi CPU服务于硬件中断所耗费的时间总额,例如:0.0%hi,
    • 第7段:si CPU服务软中断所耗费的时间总额,例如:1.8%si,
    • 第8段:st Steal time 虚拟机被hypervisor偷去的CPU时间(如果当前处于一个hypervisor下的vm,实际上hypervisor也是要消耗一部分CPU处理时间的)
  • 第4行:Mem 内存相关信息(Mem: * total, * used, * free, * buffers) 行
    • 第1段:物理内存总量,例如:Mem: 12196436k total,
    • 第2段:使用的物理内存总量,例如:12056552k used,
    • 第3段:空闲内存总量,例如:Mem: 139884k free,
    • 第4段:用作内核缓存的内存量,例如:64564k buffers
  • 第5行:Swap 交换分区相关信息(Swap: * total, * used, * free, * cached)
    • 第1段:交换区总量,例如:Swap: 2097144k total,
    • 第2段:使用的交换区总量,例如:151016k used,
    • 第3段:空闲交换区总量,例如:1946128k free,
    • 第4段:缓冲的交换区总量,3120236k cached

进程信息

在top命令中按f按可以查看显示的列信息,按对应字母来开启/关闭列,大写字母表示开启,小写字母表示关闭。带*号的是默认列。

  • A: PID = (Process Id) 进程Id;
  • E: USER = (User Name) 进程所有者的用户名;
  • H: PR = (Priority) 优先级
  • I: NI = (Nice value) nice值。负值表示高优先级,正值表示低优先级
  • O: VIRT = (Virtual Image (kb)) 进程使用的虚拟内存总量,单位kb。VIRT=SWAP+RES
  • Q: RES = (Resident size (kb)) 进程使用的、未被换出的物理内存大小,单位kb。RES=CODE+DATA
  • T: SHR = (Shared Mem size (kb)) 共享内存大小,单位kb
  • W: S = (Process Status) 进程状态。D=不可中断的睡眠状态,R=运行,S=睡眠,T=跟踪/停止,Z=僵尸进程
  • K: %CPU = (CPU usage) 上次更新到现在的CPU时间占用百分比
  • N: %MEM = (Memory usage (RES)) 进程使用的物理内存百分比
  • M: TIME+ = (CPU Time, hundredths) 进程使用的CPU时间总计,单位1/100秒
  • b: PPID = (Parent Process Pid) 父进程Id
  • c: RUSER = (Real user name)
  • d: UID = (User Id) 进程所有者的用户id
  • f: GROUP = (Group Name) 进程所有者的组名
  • g: TTY = (Controlling Tty) 启动进程的终端名。不是从终端启动的进程则显示为 ?
  • j: P = (Last used cpu (SMP)) 最后使用的CPU,仅在多CPU环境下有意义
  • p: SWAP = (Swapped size (kb)) 进程使用的虚拟内存中,被换出的大小,单位kb
  • l: TIME = (CPU Time) 进程使用的CPU时间总计,单位秒
  • r: CODE = (Code size (kb)) 可执行代码占用的物理内存大小,单位kb
  • s: DATA = (Data+Stack size (kb)) 可执行代码以外的部分(数据段+栈)占用的物理内存大小,单位kb
  • u: nFLT = (Page Fault count) 页面错误次数
  • v: nDRT = (Dirty Pages count) 最后一次写入到现在,被修改过的页面数
  • y: WCHAN = (Sleeping in Function) 若该进程在睡眠,则显示睡眠中的系统函数名
  • z: Flags = (Task Flags

命令选项

  • -b:以批处理模式操作;
  • -c:显示完整的治命令;
  • -d:屏幕刷新间隔时间;
  • -I:忽略失效过程;
  • -s:保密模式;
  • -S:累积模式;
  • -i<时间>:设置间隔时间;
  • -u<用户名>:指定用户名;
  • -p<进程号>:指定进程;
  • -n<次数>:循环显示的次数。