Hadoop记录-监控几个思路

1.存活监控

基本监控，主要对进程的存活、端口连通性、url可检测性等指标进行监控。

主要指对用户而言是否可用，能否返回预期结果，通常部署在一些业务主流程或一些关键环节，如接口调用，平台读写操作，端到端访问等。

性能指标指可能影响业务正常运行的重要指标，一般偏离正常范围需人工干预,如io、cpu、rpc/handler tps,queue、连接数等。

与资源相关，能直接推导资源用量的指标，该类指标异常可能触发扩容需求，如hdfs使用率、hbase tps、es qps/iops等。

对象主要指被监控的组件，如hbase,jstorm,指标指具体的监控项，如hbase的tps,rs count,region count,es的iops、tps、qps等。

间隔多长时间上报一次。

是否短信告警，是否邮件告警，是否丰声通知。

主要针对接口调用次数、频率进行监控，如平台接口（USS接口)、平台应用接口（ubas）等。

针对异常比较频繁，问题比较突出的应用场景，如YARN、dataIDE、调度等底层日志异常进行收集、监控。

注：各类指标可能会存在重合，但使有场景权重不一样，建议按以上分类配置，可以重复。