企业的信息化系统，为了满足高可用要求，基本都会花高成本构建各类高可用架构，希望在发生故障时，能有各种自动、半自动或可手工切换与接管的后备环境，达到可缩短故障时间与降低故障所带来的影响的目的。

但是，您所构建的各类高可用架构，在故障时，真的能实现自动或快速切换的高可用目标吗。

下面高可用架构，是笔者要分享的“高可用，要用时，高不可用”诊断分析案例中的的HA部署架构：高可用，要用时，高不可用故障诊断分析一例第1台主机，运行有ORACLE主生产数据库（单实例），同时充当SAP ECC 的备用环境

第2台主机，运行有SAP ECC主生产环境，同时充当ORACLE数据库备用环境（shutdown状态）

上述部署结构，以两台小机+1台共享存储，采用HACMP做为高可用管理软件，构成典型的HA架构，同时，两台主机均有自己的主运行程序，并且充当另一台主机所运行程序功能的备用主机，当第1台主机出现故障时，数据库可以通过HACMP自动或手动的切换到2节点上，当第2台主机故障时，SAP ECC也可以自动或手动的切换到1节点上，形成了一个两节点的功能互备的高可用集群架构。

如果说是满足一定RTO(Recovery TimeObjective,复原时间目标)要求的高可用架构，这个设计还是挺理想的。

就是设计这么理想的高可用架构，在有故障需要切换时，却切遇到了问题，导致了好几个小时的故障，这到底是怎么回事呢？

1、HA高可用无法切换故障现象

（1）2节点（RXXXHPRD2，物理IP:10.X.XX.67，虚拟IP：10.X.XX.68），因为SAPECC重启时起不来，系统维护人员手工对操作系统进行了重启

（2）2节点（RXXXHPRD2，物理IP:10.X.XX.67，虚拟IP：10.X.XX.68）操作系统重启后，正常情况下，2节点集群中的软件及资源（sap ecc、虚拟IP，共享存储卷激活状态）应该漂到1节点，以继续提供服务，这也是两台服务器创建HA的目标

（3）在2节点重启完成，1节点没有正常接管的情况下，手工启动2节点的高可用软件（HACMP）失败，导致2节点无法激活共享VG，以及对SAPECC绑定的对外提供服务的虚拟IP 10.X.XX.68不能生成

（4）手工在1节点上进入高可用管理软件（HACMP），试图将资源转移到1节点，同样无法成功

（5）在虚拟IP 10.X.XX.68不能生成的情况下，SAP ECC无法正常启动

2、本HA故障案例分析所涉及日志来源信息列表

序号	日志名称	所属节点	日志说明
1	hacmp.out	1	记录HACMP 事件脚本和实用程序的运行情况
2	cluster.log	1	记录集群脚本和后台进程等运行情况
3	cluster.log	2	记录集群脚本和后台进程等运行情况

3、本次临时故障解决方法

（1）通过在2节点（RXXXHPRD2，物理IP:10.X.XX.67，虚拟IP：10.X.XX.68）上，手工激活共享卷（civg卷），即绕过高可用（HACMP），以单节点、无高可用方式运行

（2）手工将虚拟IP：10.X.XX.68绑定到2节点的en2网卡上，以使SAP ECC所指定的IP地址活跃可通

（3）在2节点手工启动SAP ECC，启动成功，并可对外提供服务

4、故障原因及高可用不能正常切换总结

（1）在2节点的civg上，于2015年1月27日和10月29日，两次采用extendvg命令对civg中添加磁盘的不恰当的或不完整的操作方式，导致在2节点的加盘信息，没有被自动同步到1节点的VG中，也未实施手工同步操作

（2）在HACMP软件做切换的过程中，对civg卷组中的磁盘信息校验时，发现本机磁盘状态信息与HACMP的信息不一致，从而无法启动

5、故障原因分析过程及证明日志

（1）通过在集群节点1（RXXYHPRD1 IP:10.X.XX.65）上的高可用管理软件（HACMP）日志中查看到，集群节点2（RXXXHPRD2 IP:10.X.XX.67），在7点26分重启操作系统后，集群节点1上的高可用管理软件（HACMP）侦测到网络心跳故障，集群节点1中的高可用管理软件（HACMP）做出了资源切换动作：

高可用，要用时，高不可用故障诊断分析一例

（2） HACMP尝试把SAP软件所使用的civg资源在集群节点1激活，但是不成功，报出错误日志信息如下：

0516-052 varyonvg: Volume group cannot be varied on without a\n\tquorum. More physical volumes in the group must be active.\n\tRun diagnostics on inactive PVs.' ，This normally happens when a PV is added/deleted into a VG on one node and not imported。

高可用，要用时，高不可用故障诊断分析一例

根据上面错误日志判断，有些盘是后来追加到civg卷组中，却因没做导入（import）操作或缺少高可用（HA）信息同步过程，2个集群节点的civg卷组中的物理卷信息不一致导致此次资源切换失败。

（3）1节点报出civg不能激活的原因为“新增加的磁盘（PV）没有加入到VG中来”的告警信息

高可用，要用时，高不可用故障诊断分析一例

（4）人工对比1节点和2节点的磁盘信息，发现确实不一致

A、1节点的磁盘信息

操作系统中有看到“hdisk42”和 “hdisk45”两块盘，没有相对应的VG信息，说明没有加入到任何VG中

高可用，要用时，高不可用故障诊断分析一例

B、2节点的磁盘信息

操作系统中有看到“hdisk42”和 “hdisk45”两块盘，均有对应的VG信息，并且是对应的civg，说明在2节点，这两块盘是有加入VG的

高可用，要用时，高不可用故障诊断分析一例

（5）找出在2015年1月27日和2015年10月29日分别有在2节点上增加磁盘，并且增加的磁盘，正好是1节点上没有对应VG关系的“hdisk42”和 “hdisk45”两块盘

高可用，要用时，高不可用故障诊断分析一例

（6）2节点上曾使用smit extendvg命令加盘历史命令记录

高可用，要用时，高不可用故障诊断分析一例

6、高可用，要用时，高不可用原因总结

在建设初期，投入了大量的软硬件设备构建了高可用架构，但是，由于日常运行维护过程

中，没有注意适应HA的标准化维护规范，导致高可用环境遭到了破坏，到真正故障出现时，高可用就高不可用了。

7、改进建议

（1）对于基于HACMP的高可用集群环境，避免使用extendvg命令加盘

（2）建议基于HACMP的高可用集群环境下加盘采用AIX推荐的C-SPOC功能(HACMP Logical Volume Management)进行VG容量扩展

本文作者：黎俊杰（网名：踩点），从事”系统架构、操作系统、存储设备、数据库、中间件、应用程序“六个层面系统性的性能优化工作

欢迎加入系统性能优化专业群，共同探讨性能优化技术。群号：258187244

秒客网

高可用，要用时，高不可用故障诊断分析一例

1、HA高可用无法切换故障现象

2、本HA故障案例分析所涉及日志来源信息列表

3、本次临时故障解决方法

4、故障原因及高可用不能正常切换总结

5、故障原因分析过程及证明日志

6、高可用，要用时，高不可用原因总结

7、改进建议

相关文章

高可用，要用时，高不可用 故障诊断分析一例

1、HA高可用无法切换故障现象

2、本HA故障案例分析所涉及日志来源信息列表

3、本次临时故障解决方法

4、故障原因及高可用不能正常切换总结

5、故障原因分析过程及证明日志

6、高可用，要用时，高不可用 原因总结

7、改进建议

相关文章

高可用，要用时，高不可用故障诊断分析一例

6、高可用，要用时，高不可用原因总结