IBM X3950堆叠服务器,RHEL5.5,双节点,每节点配4CPU、8内存板,16*4G内存,双节点物理内存共128G。系统中查看可寻址内存仅有110G。 初次拆机更换从节点内存板8的两根内存后,主机堆叠持续无法启动,经反复测试,调配启动顺序和时间,均出现从节点 IMM hang,以及主从节点卡00 bb,主节点电源按钮慢闪,从节点快闪直至熄灭情况。经排查,发现从节点QPI接口针脚处有一发泡海绵,疑似其导致接触不良,移除后,主机可正常恢复堆叠状态。
进入系统后,使用dmidecode -t 17和dmidecode -t 17 | grep Samsung | wc -l 查看物理内存数量为32条,状态均正常。IMM接口查看双节点内存均正常。numactl -H查看node0-7中,少1和5两个node。可用内存大小为98G,由于IMM无任何报错,对从节点进行拆机,依次点亮内存板故障定位灯,发现从节点4号内存板亮故障灯,更换其上两根4G内存,进入系统后,恢复至110G,node5上线。 由于系统中仍无任何报错,且其余内存板故障定位灯均显示绿色无故障,所以需要排查定位缺失的剩余16G内存故障来源。16G是来自于故障内存板的两根4G内存及同通道内存板的内存,故为16G。 经过对更换从节点4号内存板内存之后,node5上线的分析,以如下命令 dmesg | grep -i node grep . /sys/devices/system/cpu/cpu*/topology/physical_package_id 从命令输出中可以看到,核心0-9与核心10-19这20个核心均划归node1,而剩余核心20-21至70-79则分属剩余6个node,每node10个核心。
通过命令输出判定NODE-逻辑CPU-物理CPU关系,并判断物理CPU所使用的内存槽位。
按照映射关系,确定node1-CPU1所属内存为主节点的3、4内存板,对其进行更换处理,128G内存成功识别,node0-7均上线。
进入系统后,使用dmidecode -t 17和dmidecode -t 17 | grep Samsung | wc -l 查看物理内存数量为32条,状态均正常。IMM接口查看双节点内存均正常。numactl -H查看node0-7中,少1和5两个node。可用内存大小为98G,由于IMM无任何报错,对从节点进行拆机,依次点亮内存板故障定位灯,发现从节点4号内存板亮故障灯,更换其上两根4G内存,进入系统后,恢复至110G,node5上线。 由于系统中仍无任何报错,且其余内存板故障定位灯均显示绿色无故障,所以需要排查定位缺失的剩余16G内存故障来源。16G是来自于故障内存板的两根4G内存及同通道内存板的内存,故为16G。 经过对更换从节点4号内存板内存之后,node5上线的分析,以如下命令 dmesg | grep -i node grep . /sys/devices/system/cpu/cpu*/topology/physical_package_id 从命令输出中可以看到,核心0-9与核心10-19这20个核心均划归node1,而剩余核心20-21至70-79则分属剩余6个node,每node10个核心。
通过命令输出判定NODE-逻辑CPU-物理CPU关系,并判断物理CPU所使用的内存槽位。
按照映射关系,确定node1-CPU1所属内存为主节点的3、4内存板,对其进行更换处理,128G内存成功识别,node0-7均上线。