故障管理目标:尽快回复到正常状态,尽可能减小损失,将服务可用性达到最高
故障管理考虑因素:
- 紧急程度(Urgency)
- 影响度(Impact)
影响度 高 中 低
高 1 2 3
紧急度 中 2 3 4
低 3 4 5
优先级 解决时间
1 30min
2 1hour
3 8hour
4 24hour
5 Planned
- 考虑并提前指定上线失败、数据库宕机、缓存宕机处理方式
故障定义输入、输出
故障管理流程输入
·故障请求提交
·故障单记录模板
·故障单填写模板
·故障分类规则(mysql、redis)
·故障优先级确定规则
·故障升级规则
·故障处理时间规则
·故障关闭规则
故障管理流程输出
·故障历史记录
·故障分类汇总统计表
·故障处理用户满意度
故障管理指标(KPI):
·事故平均解决时间(分类)
·主动发现、解决故障百分比
·一次正确解决故障百分比
·客户满意度
问题管理的价值:
·提供IT服务可用性
·提高业务与运维人员的效率
·减少无效措施带来的开支
·减少在救火及解决重复故障方面的成本
·有助于知识库积累
问题管理输入:
·故障历史记录
·问题识别和确认规则
·问题记录模板
·IT监控报表
·IT绩效与SLA差距分析报告
问题管理输出:
·问题根本原因
·替代解决方案
·永久解决方案
·变更请求(RFCs)
·问题分类汇总报表
故障管理模型
问题管理模型
基于监控系统的事件管理
<定义事件>