• 运维累了:该故障自愈出场了

    时间:2022-12-06 19:08:18

    背景最近晚上23:00甚至是凌晨总收到告警通知:磁盘可用量低于20%,这个时候不得不爬起来处理告警。当然这里要提醒大家:对于小问题,运维也绝不要抱着侥幸的心理,因为只有痛过才知道。磁盘类告警只是我们诸多告警中的冰山一角,虽然我们有值班人员甚至是运维团队支撑,但是也不能因为这种小问题就分散注意力,这时...

  • kubernetes云平台管理实战: 故障自愈实战(四)

    时间:2022-11-29 15:45:56

    一、创建实验文件[root@k8s-master ~]# cat myweb-rc.ymlapiVersion: v1kind: ReplicationControllermetadata: name: mywebspec: replicas: 3 selector: app: mywe...

  • 故障自愈出场后,运维就能歇歇了吧……

    时间:2022-11-08 11:06:02

    一、背景最近晚上23:00甚至是凌晨总收到告警通知:磁盘可用量低于20%,这个时候不得不爬起来处理告警。当然这里要提醒大家:对于小问题,运维也绝不要抱着侥幸的心理,因为只有痛过才知道。磁盘类告警只是我们诸多告警中的冰山一角,虽然我们有值班人员甚至是运维团队支撑,但是也不能因为这种小问题就分散注意力,...

  • k8s故障检测与自愈之一

    时间:2021-10-14 04:09:38

    组件故障可以认为是节点故障的子类,只是故障来源是K8S基础组件的一部分。DNS故障:6个DNS Pod中的2个出现无法解析外部DNS名称的情况。后果是大量线上业务因域名解析。