运维效率狂飙,全在告警管理上

时间:2021-03-07 00:47:58

随着 数字化进程的加速,企业 IT设备和 系统越来越多 告警和流程中断风险 也随之增加 每套系统和工 具发出的警报 听起来 像是 场喧嚣的聚会,各自谈论不同的话题。更糟糕的是, 安全 和运维团队正在逐渐丧失对告警的敏感度,甚至系统标出真正异常的事件,也可能因警报疲劳而被无视掉。

运维效率狂飙,全在告警管理上

在复杂的运维工作中,告警管理是运维工作至关重要的一步,不仅可以大大提高运维工作效率,还能帮助企业形成事件管理流程,让业务系统运行更加健康稳定;LinkSLA智能运维管家监控平台快速接入各类事件,通过 AI机器学习算法 提前预测、自动发现、诊断、修复IT系统运行故障,提高告警管理效率。

运维效率狂飙,全在告警管理上

告警管理的目标是能够实现快速响应和故障解决,降低故障发生率及业务影响范围 。在此目标下进行告警管理,我们要解决告警准确性,快速处理及时恢复,以及如何提前预警,防患于未然三个问题。


一、提高告警准确性

LinkSLA智能运维不断 提升用户体验和使用价值,在自动巡检、网络拓扑、服务请求等功能模块,更加便捷高效。HOLD工作节奏,帮助工程师安安静静做技术,稳定提升工作效率和价值输出。

1、快  

系统采集频率默认 3 0 秒一次,可以迅速发现问题并上报。

2、准  
系统提供预置告警规则,告警规则支持多种自定义函数、机器学习算法、简单和复杂表达式进行告警抑制、防抖,实现告警的真实准确,减少冗余告警。
3、全面

通过业务系统链路、时间等因素进行告警合并,通过业务系统链路,可以查看事件对业务的影响分析和辅助根因分析,提高告警可处理性,同时还提供知识推荐,供用户参考。

4、闭环
工单的接收到流转直至闭环,全程 M OC 工程师跟踪和督导。 发现问题,解决问题,避 免类似问题才是我们平台价值。

二、快速恢复稳定运行

系统产生告警后,线上线下流程闭环,基于事件进行全生命周期管理。

1、准确触达

准确通知对应流程的负责人,支持邮件、短信、钉钉、微信等渠道。确保及时触达到核心人员来处理事件。

2、故障定位

当故障发生时, 自动发现 拓扑可以帮助工程师快速对故障进行诊断, 基于ICMP、ARP、SNMP以及LLDP通过一键发现迅速地将当前网段中的数据进行实时收集; 便于运维人员迅速发现问题、定位问题 , 提升业务运 行质量。

3、全周期事件管理

当监控系统发生告警时,可以触发成一个事件,对事件做持续跟进和闭环管理。当同样的告警收敛为事件的维度,就不需要做重复的处理。在事件影响恶化后升级为故障,通过故障止血、故障恢复、事件完结处理,进行复盘制定改进措施,完成验收后整个运维事件生命周期的终止。

4、专家协同在线支持

在故障和应急的处理事件中,很多企业因缺乏专业技术导致成本攀升。LinkSLA运维专家在线指导或线下解决,打通运维最后一米难题,高效赋能企业数字化升级。

三、防患于未然

1、调整异常检测阈值 
LinkSLA智能运维具有自动巡检功能,可以安排它进行实时的任务巡检,也可以设置周期性任务巡检,主动发现问题,对 具有 周期性、趋势性、季节性的指标,AI机器学习建立自适应的异常检测,自动调整动态阈值,高效管理告警。

2、提前预警
对用户的资产的容量指标进行趋势预测,如文件系统空间、数据库表空间等,根据增长趋势,提前一个月告警,让用户有足够时间进行数据清理、扩容或迁移等。