文件名称:应用事件管理-c# 8.0 and .net core 3.0
文件大小:3.27MB
文件格式:PDF
更新时间:2024-07-07 17:36:12
devops
11.3 应用事件管理 事件管理是当系统出现故障时,对故障进行的应急处理,快速恢复业务的过程管理。事件管理的过 程主要包含事件发现与登记、事件分析与恢复、事件原因定位与根除,事件反馈与验证,事件总结与整 改。日常运维,需要实现制定各种场景的事件应急预案并进行演练,一旦事件发生,采用事件应急预案 来快速恢复业务是关键,避免沉浸在查找事件原因而造成对业务造成影响。 事件管理可以提高对突发事件和各类故障的应对处理能力,能更好的保障系统稳定可靠运行,提升 业务连续性。事件管理涉及到维护和研发团队,要求维护和研发团队高效协同,以业务恢复和抢通为第 一共同目标。 11.3.1 应急事件管理 表17 应急事件管理 级别 事件管理状态 事件管理过程的工具 手段 可视化 人员 1 无监控,用户先于维护人员 发现事件,没有事件响应团 队,事件无登记,事件级别 无定义,不通知用户,不汇 报,运维人员自行处理事 件。 事件处理过程没有工 具。 事件过程和状态封闭,停 留在具体处理事件的运维 人员层面。 无监控响应团队, 由开发团队负责处 理问题。 2 有监控,用户先于维护人员 发现事件,有事件响应团 队,及时登记事件,有时通 知用户和报告,故障处理有 应急预案。 事件处理过程有数据可 分析,有通知和报告的 自动化工具。 事件过程和状态在团队内 可见,会同研发团队一起 处理事件。 有服务响应团队, 响应时间为 5*8, 开发人员,兼职模 式。