1.存活监控
基本监控,主要对进程的存活、端口连通性、url可检测性等指标进行监控。
2.2 可用性监控
主要指对用户而言是否可用,能否返回预期结果,通常部署在一些业务主流程或一些关键环节,如接口调用,平台读写操作,端到端访问等。
2.3 性能指标
性能指标指可能影响业务正常运行的重要指标,一般偏离正常范围需人工干预,如io、cpu、rpc/handler tps,queue、连接数等。
2.4 容量指标
与资源相关,能直接推导资源用量的指标,该类指标异常可能触发扩容需求,如hdfs使用率、hbase tps、es qps/iops等。
2.5 监控对象&指标
对象主要指被监控的组件,如hbase,jstorm,指标指具体的监控项,如hbase的tps,rs count,region count,es的iops、tps、qps等。
2.6 监控频率
间隔多长时间上报一次。
2.7 告警方式
是否短信告警,是否邮件告警,是否丰声通知。
2.8 调用量监控
主要针对接口调用次数、频率进行监控,如平台接口(USS接口)、平台应用接口(ubas)等。
2.9 日志监控
针对异常比较频繁,问题比较突出的应用场景,如YARN、dataIDE、调度等底层日志异常进行收集、监控。
注:各类指标可能会存在重合,但使有场景权重不一样,建议按以上分类配置,可以重复。