第三章、故障定位、故障排除

根据我们在实际商用系统中碰到问题，我们总结出了以下几种常见故障及其定位方式和解决方法。

3.1硬件故障

硬件故障有很多种，对系统产生的影响也不一样，这里按其故障对系统的影响程度分：致命影响的硬件故障和只影响功能的硬件故障两类进行硬件分类：

其损坏对系统产生致命影响（将使机器宕机或无法启动）的硬件包括：

主板、CPU、I/O柜（包含本地盘、光驱、PCI插槽等的柜子）或CEC柜（包含CPU/MEMORY等的柜子）、I/O柜I/O柜与CEC柜的接线、电源模块、风扇、本地硬盘、内存损坏等等

注：I/O柜和CEC柜一般在比较高端的小型机才有，如M80，低端的是合一的。

这些设备的损坏等将使系统无法完成自检、引导和启动，液晶显示屏上都将有错误信息，可根据液晶显示屏上的错误码对照Service Guide查的错误原因，如果是工作状态下出现这些硬件损坏，则系统将被挂起或宕机。

其损坏对仅对系统产生功能影响（机器不会宕机并能正常启动）的硬件包括：

网卡、本地硬盘有坏块、显卡、SSA卡和其他外围设备

这些设备的损坏只影响特定功能，如网络功能、显示功能、访问磁阵的功能等，对于本地硬盘有坏块的情况，则要看坏块中是否包含了重要的系统文件，如果不是重要系统文件，则系统功能不受影响，但也建议立即更换该硬盘。

故障定位和排除：

以上硬件故障信息都可以使用：

液晶屏上的错误码或：

errpt –dH 查看到

根据错误码确定是什么硬件出了故障，对商用系统来讲，由于是双机系统，如果损坏机器是主机可以将此服务器切换成备机，然后修复故障机器，恢复系统。

3.2磁阵故障

磁阵引起的故障是目前碰到的最频繁、危害最大的故障，据不完全统计，其故障覆盖到总故障的70%以上，具体来讲，可能引起磁阵故障的环节包括：

磁阵硬盘、7133柜子、主机上的SSA卡、连接7133与主机的SSA线、硬盘的位置和ssa线的接线方式、以及盘柜使用的电压及周围磁场、磁阵/硬盘/ssa卡的微码等

都可能造成7133的异常。

7133磁阵的问题是最复杂的，一般有物理损坏的原因也有环境原因，这是主因，如接线、插盘位置不符合要求、未及时查看系统告警等造成系统中断等辅因。按照我们的经验，不管是什么硬件故障导致7133故障，系统都会产生告警，如果能及时发现问题并采取措施，一般都能防止故障的发生。

故障定位：

7133硬件故障也可以使用：

errpt –dH 查看到

伴随的错误码有：

B4C00618 0115140004 P H ssa0 RESOURCE UNAVAILABLE

FE9E9357 0401082304 P H ssa0 DISK OPERATION ERROR

FE9E9357 1205000803 P H pdisk3 DISK OPERATION ERROR

03913B94 1122031103 U H LVDD HARDWARE DISK BLOCK RELOCATION ACHIEVED

613E5F38 1121125103 P H LVDD I/O ERROR DETECTED BY LVM

625E6B9A 0401090004 P H ssa0 ADAPTER DETECTED OPEN SERIAL LINK

26CA120B 0206081104 P H ssa0 CACHE STORAGE CARD

所有的错误码都预示着7133有异常，红色部分则表示肯定出现了硬件故障，需要立即进行检查并采取措施，否则磁阵将很快不能访问。对于蓝色部分：

625E6B9A 0401090004 P H ssa0 ADAPTER DETECTED OPEN SERIAL LINK

表示ssa出现了开环，出现开环不仅影响IO性能，也增加了风险，即如果另一个环路也出现问题，将不能访问磁阵。

开环一般有两种情况：1)如果625E6B9A报错比较频繁，如每天几次，则表示系统很有可能出了硬件故障，虽然不会导致访问磁阵失败，但需要立即查出原因并解决。查错方法可以参考下面的描述。2)如果 625E6B9A错误偶尔报一次，则要具体情况具体对待，有可能是读写忙出现的误报，也按下面方法进行排查，如果没有查出具体的原因，则可以继续观察。

26CA120B 0206081104 P H ssa0 CACHE STORAGE CARD

该错误一般是在:SSA卡带write cache并打开FastWrite，而ssa卡上用于write cache供电的可充电镍镉电池达到或接近安全寿命的情况下产生的。这类错误产生将影响IO写性能，并且由于在FastWrite打开的情况下，主备机需要同步ssa卡上的write cache，所以甚至会影响到主备机同步。具体解决方法可参考下文。

故障排除：

对于红色部分错误的问题排除，一般可以使用diag命令进行进一步诊断：

#diag -> Task Selection -> SSA Service Aids -> Link Verification

检查环路中是否出现了？？？的盘符或状态不是good的硬盘

或使用：

#smitty ssaraid -> List All Defined SSA RAID Arrays

查看磁盘阵列RAID盘的状态是否是Good。如果是degrade或其他状态表示RAID盘出现问题了

这时候不建议再进行单独硬盘的Certify，而是赶紧通知IBM准备好相同型号和大小的硬盘(至少两块)到现场进行进一步的诊断和坏盘更换。

625E6B9A 0401090004 P H ssa0 ADAPTER DETECTED OPEN SERIAL LINK

的排查方法：

1、要求将7133中未插硬盘的槽位全部插上dummy盘。 (dummy盘:哑元盘,就是那个空壳子，相当于代替SSA硬盘装在磁盘阵列的塑料模型,当磁盘阵列的16个槽位没有被SSA硬盘插满时才用到.)

2、看看Loop状态:diag--->Task Selection-->SSA Service Aids-->Link Verification.正常Adapter Port下的两列数字是连续不间断的排列,且Status都为good,如果Physical列有???????符号.或Status不是good，则说明已经存在硬盘或链路故障，这种情况则要立即采取行动，做进一步检查以确定是否要更换硬盘。检查单盘是否有问题的方法如下：

diag--->Task Selection-->SSA Service Aids-->Certify Disk

选择认为存在故障的硬盘进行检查

3、如果7133存在硬件故障时，可从状态灯上观察到：

当单块硬盘出现故障或未被使用时，其面板上的硬盘状态灯会不亮

阵列的状态灯黄灯会亮

或接SSA线的端口的指示灯也会熄灭

如果通过以上三种方法都未发现问题，而系统仍报Open Serial Link错误，建议继续跟踪。

26CA120B 0206081104 P H ssa0 CACHE STORAGE CARD

的处理方法：

背景介绍：

IBM小型机上连接7133磁阵所配置的SSA卡一般都带有一块充电电池，该电池用于在突然停电的情况下保护ssa卡上的fast write cache中的信息不丢失，这块电池的安全寿命一般是22000小时，差不多两年半的时间，也就是说，当fast write模式启动的情况下，一般两年半以后需要更换这块电池。

问题表现：

对ssa卡上的电池保护是通过卡上的一个计数器实现的，每运行一小时该计数器会增加一，当该计数接近或超过22000时，系统会有26CA120B硬件报警：

26CA120B 0206120904 P H ssa1 CACHE STORAGE CARD

可以用如下命令检查ssa卡上的状态：(-a 后带上卡的逻辑设备名，这里假设是ssa0)

ssa_fw_status -a ssa0 -p (检查电池已经工作的时间，小时为单位)

ssa_fw_status -a ssa0 -l (检查电池安全工作寿命，小时为单位)

ssa_fw_status -a ssa0 -c (检查ssa卡上的fast write功能是否被激活)

处理步骤：（按优选方式列出，从中选择一种即可）

1)更换电池

选择系统闲时，更换主备机ssa卡电池，可以采用：

停备机－》更换备机ssa卡电池－》起备机（双机服务）－》主备倒换－》

停原主机－》更换原主机ssa卡电池－》起原主机（双机服务）

2)如果系统出现26CA120B电池告警，使用ssa_fw_status -a ssa0 -c 检查主用ssa卡(一般是ssa0)的Fast Write是否处于inactive（未被激活）状态，如果是，则以root执行如下命令：

ssa_format -l ssa0 -b

errclear 0

/usr/lib/errstop

/usr/lib/errdemon

可以暂缓更换电池时间，等有电池后再更换，但这段时间对磁阵读写性能会有所影响。

3)如果短期内不能更换电池，同时主机主用卡的Fast Write仍然处于Active状态，建议手工屏蔽fast write功能

1）先停止双机

2）在1号机修改hdisk该属性：

smitty dev->ssa disks->ssa logical disks->change /show characters of ... -> [choose hdisk2] -> fast write [no]

3）在1号机激活卷组

varyonvg zxinvg

4）在1号机去激活卷组

varyoffvg zxinvg

5）在2号机上执行

smitty dev->ssa disks->ssa logical disks->change /show characters of ... -> [choose hdisk2] -> fast write [no]

检查fast write是否已经改为no (只要1号机做了2好机就不用再修改了)

6）在2号机上执行

rmdev -dl hdisk2

cfgmgr -v

7）在2号机上执行

lspv (查看hdisk2是否已找到)

8）然后执行

varyonvg zxinvg

varyoffvg zxinvg

9）重新启动双机

对于出现错误：

B4C00618 0115140004 P H ssa0 RESOURCE UNAVAILABLE

而不伴随其他红色标出错误的情况，则通过以下方式排查：

可能是hdisk中将‘enable user of hot spare’打开了，而实际并没有配置hot spare盘，

可以通过如下方式解决：

检查RAID的状态：

#smitty ssaraid

list all defined SSA RAID arrays : all are in status good (ssa0 )

检查是否配置了hot spare:

list/identify SSA Physical disks-->List hot spares : none

修改每个ssa卡所配置的hdisk的属性：

: set "enable use of hot spare" to "no"

然后再执行：

# /usr/lib/errstop

# cp /var/adm/ras/errlog /var/adm/ras/errlog.bak

#/usr/lib/errdemon

#errclear 0

对于物理硬盘的接法可参考如下说明：（有可能老局未配置hot spare，则连线方法按未配置hot spare盘的个数计算）

分以下几种情况讲述：

1) 数据盘小于等于6块，建议配置一块hotspare

2) 数据盘大于等于8块小于等于10块，建议配置两块hotspare

3) 数据盘大于等于12块小于等于14块，建议配置两块hotspare

l 数据盘小于等于6块，配置一块hotspare的接线和配置规则：

a) 主机A1、A2接磁阵1、8位置；备机A1、A2接磁阵4、5位置

b) 保证磁阵前排1\4\5\8硬盘位置一定要插盘，其余的盘可以挑空位插，注意1-4、5-8两侧的数据盘保持轴对称关系插入（如1和8是轴对称的、4和5是轴对称的）

c) 没有插硬盘的位置一定要插上dummy盘

d) 做RAID0＋1时，考虑到性能问题，请将1-4、5-8以轴对称方式一一对应做硬盘镜像，举例如下:

ibm对pdisk的排序与实际的物理位置是不同的，所以必须先通过lsdev -C |grep pdisk的方式找出其对应关系并记录下来，如：

pdisk0 Available 11-08-1641-01-P SSA160 Physical Disk Drive

pdisk1 Available 11-08-1641-05-P SSA160 Physical Disk Drive

pdisk2 Available 11-08-1641-04-P SSA160 Physical Disk Drive

pdisk3 Available 11-08-1641-08-P SSA160 Physical Disk Drive

看第三列中间字符中有-01-的字样，表示其物理硬盘位置，以上对应关系表示

pdisk0-pdisk3对应的物理槽位分别是前排1\5\4\8的位置，所以在使用smitty ssaraid做RAID0+1时，需将1\8位置的硬盘（pdisk0/pdisk3）做成镜像、4\5位置的硬盘（pdisk2/pdisk1）做成镜像，所以选择Primary Disks/Secondary Disks时如下：

smitty ssaraid-> Add an SSA RAID Array -> ...

Primary Disks [需要选择：pdisk0 pdisk2] -- 1\4槽位的硬盘作为主盘

Secondary Disks [需要选择：pdisk3 pdisk1] -- 8\5槽位的硬盘作为从盘

该要求只是从性能考虑，并不增加其他特性。

e) hot spare盘插入位置可以找前排8个位置中的空位插入即可。无特殊位置要求，制作方法如下：使用lsdev -C |grep pdisk方式找出其pdisk号，如pdisk5 然后使用如下方式将其做成hot spare盘。

smitty ssaraid->Change Use of Multiple SSA Physical Disks->选择ssa卡(连接磁阵的ssa卡，缺省为ssa0)

->选择作为hotspare的pdisk，如pdisk6 ->New Use->选择 hot spare 按回车创建即可

l 数据盘大于等于8块小于等于10块，配置两块hotspare的接线和配置规则：

a) 主机A1、A2接磁阵1、12位置；备机A1、A2接磁阵8、9位置

b) 保证磁阵前排1－8位置插满数据盘，9-12位置的数据盘和hot spare盘位置可任意。

c) 没有插硬盘的位置一定要插上dummy盘

d) 做RAID0＋1时，考虑到性能问题，请将1-4、5-8以轴对称方式一一对应做硬盘镜像，

9-12位置中有数据盘的，将其对应做镜像，其余两块做hot spare，举例如下:

ibm对pdisk的排序与实际的物理位置是不同的，所以必须先通过lsdev -C |grep pdisk的方式找出其对应关系并记录下来，如：

pdisk0 Available 11-08-1641-01-P SSA160 Physical Disk Drive

pdisk1 Available 11-08-1641-05-P SSA160 Physical Disk Drive

pdisk2 Available 11-08-1641-04-P SSA160 Physical Disk Drive

pdisk3 Available 11-08-1641-08-P SSA160 Physical Disk Drive

pdisk4 Available 11-08-1641-02-P SSA160 Physical Disk Drive

pdisk5 Available 11-08-1641-03-P SSA160 Physical Disk Drive

pdisk6 Available 11-08-1641-07-P SSA160 Physical Disk Drive

pdisk7 Available 11-08-1641-06-P SSA160 Physical Disk Drive

pdisk8 Available 11-08-1641-09-P SSA160 Physical Disk Drive

pdisk9 Available 11-08-1641-11-P SSA160 Physical Disk Drive

pdisk10 Available 11-08-1641-10-P SSA160 Physical Disk Drive

pdisk11 Available 11-08-1641-12-P SSA160 Physical Disk Drive

看第三列中间字符中有-01-的字样，表示其物理硬盘位置，以上对应关系表示

pdisk0-pdisk11对应的物理槽位分别是1\5\4\8\2\3\7\6\9\11\10\12的位置，所以在使用smitty ssaraid做RAID0+1时，前面八块盘按1-4、5-8轴对称方式对应做mirror,9-12中如选择9(pdisk8)/12(pdisk11)位置做mirror

所以选择Primary Disks/Secondary Disks时如下：

smitty ssaraid-> Add an SSA RAID Array -> ...

Primary Disks [选择：pdisk0 pdisk4 pdisk5 pdisk2 pdisk8] 物理1-4,9槽位

Secondary Disks [选择：pdisk3 pdisk6 pdisk7 pdisk1 pdisk11]物理8-5,12槽位

该要求只是从性能考虑，并不增加其他特性。

e) 剩余物理位置10(pdisk10)/11(pdisk9)盘做成hot spare，方法同上e)步骤

l 数据盘大于等于12块小于等于14块，配置两块hotspare的接线和配置规则：

a) 主机A1、A2接磁阵1、16位置；备机A1、A2接磁阵8、9位置

b) 空出3、14位置插hot spare，如果是12块数据盘，空出2、15位置插dummy盘，其余都插入数据盘；如果是14块数据盘，则将剩余的14个位置全部插上数据盘

c) 做RAID0＋1时，考虑到性能问题，请将1-8、9-16以轴对称方式一一对应做硬盘镜像， hot spare也满足轴对称关系，举例如下:

ibm对pdisk的排序与实际的物理位置是不同的，所以必须先通过lsdev -C |grep pdisk的方式找出其对应关系并记录下来，如：

pdisk0 Available 11-08-1641-01-P SSA160 Physical Disk Drive

pdisk1 Available 11-08-1641-05-P SSA160 Physical Disk Drive

pdisk2 Available 11-08-1641-04-P SSA160 Physical Disk Drive

pdisk3 Available 11-08-1641-08-P SSA160 Physical Disk Drive

pdisk4 Available 11-08-1641-02-P SSA160 Physical Disk Drive

pdisk5 Available 11-08-1641-03-P SSA160 Physical Disk Drive

pdisk6 Available 11-08-1641-07-P SSA160 Physical Disk Drive

pdisk7 Available 11-08-1641-06-P SSA160 Physical Disk Drive

pdisk8 Available 11-08-1641-09-P SSA160 Physical Disk Drive

pdisk9 Available 11-08-1641-11-P SSA160 Physical Disk Drive

pdisk10 Available 11-08-1641-10-P SSA160 Physical Disk Drive

pdisk11 Available 11-08-1641-12-P SSA160 Physical Disk Drive

pdisk12 Available 11-08-1641-16-P SSA160 Physical Disk Drive

pdisk13 Available 11-08-1641-13-P SSA160 Physical Disk Drive

pdisk14 Available 11-08-1641-15-P SSA160 Physical Disk Drive

pdisk15 Available 11-08-1641-14-P SSA160 Physical Disk Drive

看第三列中间字符中有-01-的字样，表示其物理硬盘位置，以上对应关系表示

pdisk0-pdisk15对应的物理槽位分别是1\5\4\8\2\3\7\6\9\11\10\12\16\13\15\14的位置，所以在使用smitty ssaraid做RAID0+1时，以1-8、9-16以轴对称创建mirror所以选择Primary Disks/Secondary Disks时如下：

smitty ssaraid-> Add an SSA RAID Array -> ...

Primary Disks [选择：pdisk0 pdisk4 pdisk2 pdisk1 pdisk7 pdisk6 pdisk3]

物理1-8槽位，除3位置以外

Secondary Disks [选择：pdisk12 pdisk14 pdisk13 pdisk11 pdisk9 pdisk10 pdisk8]

物理16-9槽位，除14位置以外

该要求只是从性能考虑，并不增加其他特性。

剩余物理位置3(pdisk5)/14(pdisk15)盘做成hot spare，方法同上e)步骤

3.3 网络故障

由于我们应用对网络依赖很强，所以当网络出现全阻或瞬断都将对系统产生重大影响，网络故障一般可分为硬件故障（如网卡故障和交换机、路由器故障）和软件故障（网络中有IP包攻击或网络拥塞）两种情况。

硬件故障：

1．网卡

对于网卡故障，由于商用系统中都是采用IBM的HA双机系统，而且每台机器都配置有至少两块网卡，所以当单块网卡或网线出现问题时，HA软件都将采取措施实现Service IP切换。

网卡故障定位方法：使用errpt –dH 可查看到网卡服务中断的错误，再使用diag进行网卡诊断

网卡故障排查方法：如果诊断出网卡有问题，则关闭系统后进行更换。（如果是主机，则先手工切换为备机后再操作）

2．交换机

我们的网络一般都采取双网双平面的结构，所以当一个网络平面的交换机出现问题时，也不会中断网络服务，但值得重视的是：主、备交换机之间的直连线要保持畅通，否则一单发生IBM服务器主机或SIU主机的网卡切换，将导致IBM服务器主机和SIU主机断链，从而导致业务全阻。

还有一种情况，有些地方为了网络安全，对连到switch上的不同设备划分了不同的VLAN，同时又将主、备switch之间改成通过两个口连接，并划分在一个channel group里，当时碰到的一种情况是：

1)当时IBM服务器的主网卡从缺省VLAN0到VLAN6实现迁移时，网络将出现15秒～30秒的瞬断

2)当时主、备交换机之间的channel group工作不正常，链路不通。

当1)发生时，IBM双机发生主、备网卡倒换，但由于2)的问题，导致IBM主机无法与SIU建链。

问题排查及建议：

1) 建议开局时一定要做双网双平面中一个平面的swith发生掉电的故障测试

2) 建议一定要做主、备交换机之间的设备之间的网络互访测试，确保畅通

3) 尽量不要在白天在switch上进行配置修改，如果需要修改，也要在晚上进行，并有严格的方案

软件故障：

1．网络拥塞

由于系统在封闭网络中运行，所以发生网络拥塞的可能性比较小，但如果网络拓扑比较复杂的话，也可能发生这种情况，在主机上的表现为ping主机丢包严重，主机到SIU之间链路时通时断，数据包丢失，设备功能异常。

问题排查及建议：

1) 尽量使NT/2000的机器从网络上隔离出去

2) 如果情况仍未改善，建议启动SIU应急流程

3) 在恢复呼叫的前提下，使用网络工具抓包，找出攻击源、逐步将设备恢复到网络。

2．切换失败

现场碰到过一种情况，当发生主、备机切换时老是切换不成功，检查发现是备机的主网卡绑定浮动IP老是失败，再进一步排查，发现失败的原因是备机主网卡绑定MAX地址失败，由于IBM双机配置时需要将Service IP配置为一个固定的MAC地址，规则是取主机主网卡的MAC地址，将最后两位改为固定的两个数字（要求与原主网卡地址不同，如定制为89）。但这样的规则在现场不成功

问题排除：最后修改了HA 拓扑图中以太网配置中Service Adapter配置，去掉MAC地址的配置（置为空），让后同步双机，再进行倒换，一切OK

由于网络故障出现会导致远程登录失效，所以无法进行系统维护。所以建议任何一套IBM服务器都要配置一个维护台。

3.4 OS故障

AIX是一个比较稳定的操作系统，出现故障一般是人为因素引起的：

1. 没按要求打OS补丁，如433打了09的补丁造成内存泄漏

2. 应用程序或数据库消耗内存太多或存在内存泄漏导致物理内存和paging space被耗尽导致系统挂起

3. 人为删除了重要的目录或文件，如：/dev、/usr、/bin、/sbin、/etc等

故障排查：

1．查操作系统补丁是否符合要求（433要求10以上，5.1要求5以上）

2．检查内存、paging space的使用情况（使用lsps –a查看使用率要小于20%）

3．检查shell命令执行时是否有报错，errpt有无相关报错

3.5 HA故障

对于HA安装时出现的故障，如同步拓扑图失败，要求检查以下条款看是否符合要求：

1．对于4.4.1版本的HA一定要打上15以上的补丁，4.5版本的HA要求打上9以上的补丁

2．网络相关的配置文件一定要按照安装手册去设置

3．网络ip配置要正确并且保证物理链路畅通

4．所有4.4.1、4.4.0版本一律使用标准版

5．不能在同一台机器中同时安装标准版或ES版

6. 打补丁时请使用smitty update_all方式，不要选择打所有补丁，因为标准版和ES版的补丁往往在一起，这样会导致版本不一致

如果是新开局，一定要保证做双机倒换测试并确保成功。

如果在后续使用中，进行了如下操作，以后再做双机切换会失败：

1．在主机上做过磁阵RAID或共享VG相关信息的修改，如：增加了新的RAID盘，修改了共享VG的配置

2．在共享VG中增加了新的FS、增加了新LV

3．以上配置或修改只在主机上进行了操作，而未将共享VG信息及时同步到备机

4．备机虽然导入了新的共享VG信息，但未修改共享VG属性为系统启动时不自动启动

5．未在共享VG激活、共享文件系统mount状态下修改备机共享文件系统、裸设备的权限改为数据库可操作的权限

以下是HA的正常操作流程和异常情况下的处理，供参考：

HA正常操作流程

a、启动HA前必须保证：

双机结构组件物理连接正确无误

操作系统运行正常

HA软件安装配置正确，拓扑结构和资源组同步成功完成

系统当前无任何HA进程如clstrmgr、clsmuxpd或clinfo运行，如果有则首先执行HA关闭操作

系统当前无任何HA资源组中定义的应用进程或设备击活，如共享磁盘vg未挂接在任何节点上、属于资源组的数据库和应用进程未启动等

b、HA启动过程是clstrmgr被击活后由它在后台调用执行相关脚本完成，所以启动过程是否结束不能单看cluster进程是否被击活，最好方法是跟踪hacmp.out日志记录：

# tail -f /tmp/hacmp.out

启动结束标志：hacmp.out记录HACMP Event Summary（任何动作结束标志）

建议主备节点顺序启动，不可主备机同时启动HA

c、任何事件操作必须等待该事件完全执行完毕后方可执行下一个事件

d、HA结合服务器的冗余部件可以完全消除双机系统中的单点故障，但当系统出现多点故障时并不保证系统正常运行，多点故障包括双机同时出现多个与HA相关部件错误，或者双机出现某个错误引起HA启动相应事件脚本切换后又出现另一个错误需要再次切换资源，此时，需要看具体情况人工干预引导系统正常运行

e、在关闭HA时，需要确保HA彻底关闭后才执行后续操作，是否完成关闭动作可查看：

# lssrc -g cluster

无任何进程运行

# tail -f /tmp/hacmp.out

hacmp.out记录HACMP Event Summary

# lsvg -o

共享vg不在挂接与任何一个节点服务器上

f、任何事件默认须在360秒内执行完成，否则HA将自动启动config_too_long事件。

g、如果在执行任何事件脚本时出现异常或错误，HA将挂死而无法完成后续事件脚本，经过360秒钟后，HA将自动启动config_too_long脚本，hacmp.out将记录此事件的执行

异常情况应急处理

在执行任何事件脚本出现异常而无法正常运行HA时，采取以下步骤：

a、关闭所有有关HA的应用进程，如手工停止智能网进程，手工停止数据库等

b、umount所有共享vg上的文件系统

c、执行varyoffvg将共享vg从服务器离线

d、执行smitty clstop选择Shutdown mode为"forced"方式关闭HA

e、用命令

# ps -ef

# lsvg -o

# lssrc -g cluster

# netstat -i

等查看以上操作是否执行完整，如果有些相关进程未关闭可以使用kill将其杀掉（不能保证系统保持运行正常，可能出现系统宕机）

f、查看双机系统物理连接是否完好

g、通过以上命令关闭所有有关HA进程后，重启HA smitty clstart，重新验证HA是否正常

h、通过以上各个步骤的操作HA依然不能正常工作，关机重启系统

3.6 其他故障

其他故障包括

1．无法正常使用sar、svmon、topas等系统命令导致无法获取CPU、MEM等统计信息

处理方法：

只要检查如下两个包：

lslpp –l |grep “perfagent.tools”

lslpp –l |grep “bos.acct”

如果没有，则安装

另外注意/usr/lib/sa目录下的文件有执行权限；

/usr/bin/svmon有u+s权限

2．夏时制设置问题导致时间无法同步

我们商用的系统不能设置为夏时制，如果设置为夏时制的话，将导致时间同步功能出现问题。

可以用echo $TZ看时区来判断，时区以DT结尾的就使用了夏时制。

如果不想用，可以通过smit->system environment->change show date and time->change time zone using system defined values来改变，在弹出的USE DAYTIME SAVING对话框中选择No,选好相应的时区后重启机器既可。

3．异步IO没有配置

如果异步IO没打开，将严重影响IO性能，检查方法如下：

lsdev -Cc aio |grep "aio0 Available" 如果有返回，表示已经配置了

否则执行：

mkdev -l aio0

chdev -P -l aio0 -a autoconfig='available'

进行配置

对于磁阵访问IO状况不好的，还可以进一步调整异步IO的参数，原则如下：

smity aio-> Change / Show Characteristics of Asynchronous I/O

MINIMUM number of servers --设置为磁阵物理数据盘个数 * 5

MAXIMUM number of servers --设置为磁阵物理数据盘个数 * 10 (超过80设置为80)

秒客网

IBM__P系列小型机故障定位故障排除

第三章、故障定位、故障排除

3.1硬件故障

3.2磁阵故障

3.3 网络故障

3.4 OS故障

3.5 HA故障

HA正常操作流程

异常情况应急处理

3.6 其他故障

相关文章

IBM__P系列 小型机 故障定位 故障排除

第三章、故障定位、故障排除

3.1硬件故障

3.2磁阵故障

3.3 网络故障

3.4 OS故障

3.5 HA故障

HA正常操作流程

异常情况应急处理

3.6 其他故障

相关文章

IBM__P系列小型机故障定位故障排除