1、背景描述
这几天发现es的服务占用的cpu资源比较高,经常出现瞬间彪高的现象,对分析原因的产生所以我们需要知道该进程的%cpu变化值,但是我们总不能一直盯着屏幕看,所以用zabbix进行监控。
比如top查看下面的值:
2、解决思路
写python脚本获取当前你要的进程的%cpu的值
其次在zabbix-agentd.d目录中添加.conf结尾的文件,具体之前zabbix自定义监控时有描述。
在zabbix页面中配置模板,并在模板中定义item,graph。
1、python脚本,Shell脚本二选一:
之所以这样,是因为python脚本获取值的时候是没问题的但是zabbix调用的时候会提示出现什么获取到的空值,但是实际执行python脚本是不会的。所以后来又写了一个shell脚本。
[root@hadoop1 shell]# cat check_esCpu.py
#引入commands模块
import commands
#定义一个函数,获取es的进程id
def get_pid():
p_id_command = "ps -ef|grep Elasticsearch|grep -v grep|awk '{print $2}'"
p_id = commands.getstatusoutput(p_id_command)
pid = int(p_id[1])
return pid
#执行函数获取es进程的pid
pid=get_pid()
command = "top -c -b -n 1| grep -v '0.0' |grep '%s' | awk '{print $9}'"%(pid)
#接收执行上述命令后的返回值
ret = commands.getstatusoutput(command)
#打印%cpu的值这里一定要注意获取的是一个字符串,下面是把一个字符串变成一个整数。
print int(float(ret[1]))
shell脚本
#获取es的进程号
pid=`ps -ef|grep Elasticsearch|grep -v grep|awk '{print $2}'` #根据进程号获取es的%cpu的值
escpu=`top -c -b -n 1| grep -v '0.0' |grep $pid | awk '{print $9}'`
echo ${escpu}
2、自定义check_es_cpu.conf文件:
[root@hadoop1 zabbix_agentd.d]# cat check_es_cpu.conf
# Monitor check_es_cpu
# Author: yinlong.wang@baifendian.com
# es_cpu_loads
UserParameter=es_cpu_loads, python /opt/software/shell/check_esCpu.py
3、配置模板,自定义item,graph,trigger。
创建模板,然后再模板中添加item,将所有有es服务的机器都加入到这个模板中,添加完毕后,如下图所示的样子,具体添加请看之前的博客。