一、裂脑
由于两台高可用服务器对之间,在指定时间内,无法相互检测到对方的心跳,而各自启动故障切换转移功能,取得资源服务及所有权,而此时的两台高可用服务器对都还或者,并且正在运行,这样就会导致同一个IP或服务在两段同时启动而发生冲突的严重问题,最严重的是两台主机占用同一个VIP,当用户写入数据的时候可能同时写在两台服务器上。
1)产生裂脑原因
1、心跳链路故障,导致无法通信
2、开启防火墙阻挡心跳消息传输
3、心跳网卡地址配置等不正确
4、其他:心跳方式不同,心跳广播冲突,软件bug等
备注:
1、心跳线坏了(故障或老化)
2、网卡相关驱动坏了,IP配置即冲突问题(直连)
3、心跳线间连接的设备故障(网卡及交换机)
4、仲裁机器出问题
2)防止裂脑的方法
1、采用串行或以太网电缆连接,同时用两条心跳线路
2、做好裂脑的监控报警,在问题发生时人为第一时间介入仲裁
3、启用磁盘锁,即正在服务的一方只在发现心跳线全部断开时,才开启磁盘锁
4、fence设备(智能电源管理设备)
5、增加仲裁盘
6、加冗余线路
二、lvs负载不均的原因
原因分析
①lvs自身的会话保持参数设置。优化:使用cookie代替session
②lvs调度算法设置,例如rr、wrr、
③后端RS节点的会话保持参数,例如apache的keepalive参数
④访问量较少的情况下,不均衡的现象更加明显
⑤用户发送的请求时间长短和请求资源多少以及大小
三、lvs的排错
1、调度器上lvs调度规则及IP正确性
2、RS节点上VIP和ARP抑制的检查
生成思路
1)对绑定的VIP做实时监控,出问题报警或自动处理后报警
2)把绑定的VIP做成配置文件,例如: vim /etc/sysconfig/network-scripts/lo:0
ARP抑制的配置思路
1)如果是单个VIP,那么可以用stop传参设置0
2)如果RS端有多个VIP绑定,此时,即使是停止VIP绑定也不一定不要置0.
3)RS节点上自身提供服务的检查
4)辅助排除工具有tcpdump、ping等
5)负载均衡和反向代理三角形排查理论
先检查客户端到服务端--->然后检查负载均衡到RS端--->最后检查客户端到LVS端