故障現(xiàn)象
某些場景下 MQ 集群信息會進入混亂狀態(tài),集群信息混亂后,刷新集群信息時,會導(dǎo)致產(chǎn)生 FDC 日志及錯誤日志,嚴(yán)重時集群通道 not running 集群進程amqrrmfa 會異常終止,需要重啟隊列管理器進行恢復(fù)。
分析過程
通過收集并分析 MQ dump 可以看到,該集群名字叫做NFXSCLUSTER,但在 dump 中能夠看到有對象指向了一個未知的集群名字 'E.RQ.202 NFXS_QM1_201' 表示集群信息已經(jīng)混亂。
11/29/15 17:39:22 - Process(48431228.1) User(root) Pr ogram(amqrrmfa)Host(NFXS1)AMQ9419: No cluster-receiver channels for cluster 'E.RQ.20
2NFXS_QM1_201'EXPLANATION:The repository manager has received information about a cluster for which nocluster-receiver channels are known. ACTION:Define cluster-receiver channels for the cluster on the local queue manager.
解決方案
MQ 有一個高危補丁 IV25030,如 MQ 集群信息未混亂,安裝該補丁可以有效預(yù)防,使集群信息不混亂; 如集群信息已經(jīng)混亂,安裝該補丁也無法使集群信息回復(fù)正常,需要冷啟 MQ 集群進行恢復(fù)。