故障&问题管理

时间:2022-04-10 12:40:13

故障管理目标:尽快回复到正常状态,尽可能减小损失,将服务可用性达到最高

故障管理考虑因素:

  • 紧急程度(Urgency)
  • 影响度(Impact)

影响度 高 中 低
高 1 2 3
紧急度 中 2 3 4
低 3 4 5

优先级 解决时间
1 30min
2 1hour
3 8hour
4 24hour
5 Planned

  • 考虑并提前指定上线失败、数据库宕机、缓存宕机处理方式

故障定义输入、输出
故障管理流程输入
·故障请求提交
·故障单记录模板
·故障单填写模板
·故障分类规则(mysql、redis)
·故障优先级确定规则
·故障升级规则
·故障处理时间规则
·故障关闭规则

故障管理流程输出
·故障历史记录
·故障分类汇总统计表
·故障处理用户满意度

故障管理指标(KPI):
·事故平均解决时间(分类)
·主动发现、解决故障百分比
·一次正确解决故障百分比
·客户满意度

问题管理的价值:
·提供IT服务可用性
·提高业务与运维人员的效率
·减少无效措施带来的开支
·减少在救火及解决重复故障方面的成本
·有助于知识库积累
故障&问题管理

问题管理输入:
·故障历史记录
·问题识别和确认规则
·问题记录模板
·IT监控报表
·IT绩效与SLA差距分析报告

问题管理输出:
·问题根本原因
·替代解决方案
·永久解决方案
·变更请求(RFCs)
·问题分类汇总报表
故障&问题管理

故障管理模型
故障&问题管理
故障&问题管理

问题管理模型
故障&问题管理
故障&问题管理

基于监控系统的事件管理
<定义事件>
故障&问题管理