11.2.0.4 RAC CSSD服务无法启动故障 unable to set priority to 4

时间:2022-10-08 17:09:45

1、节点一 CSSD.log报错信息

心跳等均正常。 关闭正常节点2,节点1仍然无法启集群服务。

CSSD.log日志出现无法设置优先级报错

2022-09-16 22:20:12.918: [ CSSD][3851802432]clssscGetParameterOLR: OLR fetch for parameter priority (15) failed with rc 21 2022-09-16 22:20:12.918: [ CSSD][3851802432]clssscSetPrivEnv: Setting priority to 4 2022-09-16 22:20:12.924: [ CSSD][3851802432] clssscSetPrivEnv: unable to set priority to 4 2022-09-16 22:20:12.924: [ CSSD][3851802432]SLOS: cat=-2, opn=scls_set_priority_realtime, dep=1, loc=setsched unable to escalate to real time

2、MOS查找后大致匹配文章 Linux: GI OCSSD Fails to Start After cgroups Setting Change (Doc ID 1577784.1)

11.2.0.4 RAC CSSD服务无法启动故障 unable to set priority to 4

但是本次故障的服务器没有使用文章中导致问题的libcgroup-tools,没有cgconfig服务,当然也没有cgconfig.conf文件,且cpu.rt_runtime_us目前就是缺省值950000**,** 文章中给出的解决方案不适用。

问题的本质是ocssd进程无法得到较高的进程优先级,应该是RAC部署后,直至OS重启之前,系统cgroup设置有了变化,但是系统没有安装显式设置cgroup的软件包,那根据HPE文章** Document - Advisory: HPE Serviceguard for Linux - cmcld, cmproxyd, and qs Daemons May Fail To Run with Messages "Could Not/Failed To Set Realtime Priority" | HPE Support**,只能是某些软件因为设置了CPU相关的设置,隐式打开了CPU accounting,使用文章给出的命令进行搜索:

find /etc/systemd/system.conf /etc/systemd/system /usr/lib/systemd -type f | xargs grep -e CPUAccounting -e CPUWeight -e StartupCPUWeight -e CPUShares -e StartupCPUShares -e CPUQuota
若查询到有开启Cpuaccounting 的服务,对比二节点已运行的服务将有差异的服务禁掉。
#XX云安全代理
tinagent.service
tinaxxxx.service
tinaxxxx.service
tinaxxxx.service
tinaxxxx.service

3、重启集群服务

停止并disable 禁用开启CPUaccounting的服务,重新启动集群,正常启动。

参考文档: