最近让ibm的processor folding给害了
原文网址:https://tieba.baidu.com/p/3880143556
最近让ibm的processor folding给害了,分享一下,说不定有人用得上:
两套双节点的11.2.0.4RAC数据库,都是p7+shared_SMT_4+aix7.1+asm+emc
两套都是其中一个节点db实例反复被lmhb重启,lmhb报各种超时
心跳、负载、IO等方面都找不出毛病
SR反馈符合" Bug 18916477 : LMHB: TERMINATING THE INSTANCE DUE TO ERROR 29770" ,但 也说在11.2.0.4这个问题已修复,没招了,让改参数继续观察:
_lm_rcvr_hang_allow_time=180
_lm_rcvr_hang_kill =false
一改可好,毛病变了,开始节点驱逐了,更糟糕
最后改了两个与processor folding相关的参数,貌似好了,有待继续观察
vpm_fold_policy = 0
vpm_xvcpus = -1
这里关键在于shared processor分区模式,如果是dedicated模式,压根不会有这个问题,这俩 vpm_参数根本都不需要知道
另外:
IBM processor folding方面的文章
http://www-01.ibm.com/support/docview.wss?uid=isg1fixinfo105201
https://www.ibm.com/support/knowledgecenter/en/ssw_aix_61/com.ibm.aix.performance/virtual_proc_mngmnt_part.htm
https://www.ibm.com/developerworks/community/blogs/aixpert/entry/aix_virtual_processor_folding_in_misunderstood110?lang=en
http://www.talkwithtrend.com/Article/161143
https://www.ibm.com/developerworks/cn/linux/l-processor-utilization-difference-aix-lop-trs/