IBM X3950堆叠服务器，RHEL5.5，双节点，每节点配4CPU、8内存板，16*4G内存，双节点物理内存共128G

IBM X3950堆叠服务器，RHEL5.5，双节点，每节点配4CPU、8内存板，16*4G内存，双节点物理内存共128G。系统中查看可寻址内存仅有110G。初次拆机更换从节点内存板8的两根内存后，主机堆叠持续无法启动，经反复测试，调配启动顺序和时间，均出现从节点 IMM hang，以及主从节点卡00 bb，主节点电源按钮慢闪，从节点快闪直至熄灭情况。经排查，发现从节点QPI接口针脚处有一发泡海绵，疑似其导致接触不良，移除后，主机可正常恢复堆叠状态。

进入系统后，使用dmidecode -t 17和dmidecode -t 17 | grep Samsung | wc -l 查看物理内存数量为32条，状态均正常。IMM接口查看双节点内存均正常。numactl -H查看node0-7中，少1和5两个node。可用内存大小为98G，由于IMM无任何报错，对从节点进行拆机，依次点亮内存板故障定位灯，发现从节点4号内存板亮故障灯，更换其上两根4G内存，进入系统后，恢复至110G，node5上线。由于系统中仍无任何报错，且其余内存板故障定位灯均显示绿色无故障，所以需要排查定位缺失的剩余16G内存故障来源。16G是来自于故障内存板的两根4G内存及同通道内存板的内存，故为16G。经过对更换从节点4号内存板内存之后，node5上线的分析，以如下命令 dmesg | grep -i node grep . /sys/devices/system/cpu/cpu*/topology/physical_package_id 从命令输出中可以看到，核心0-9与核心10-19这20个核心均划归node1，而剩余核心20-21至70-79则分属剩余6个node，每node10个核心。

通过命令输出判定NODE-逻辑CPU-物理CPU关系，并判断物理CPU所使用的内存槽位。

按照映射关系，确定node1-CPU1所属内存为主节点的3、4内存板，对其进行更换处理，128G内存成功识别，node0-7均上线。