开发那边反应有一台机器挂了(ping、ssh都不行),我通过远程管理口看到这台机器b并没有挂,我登录进去,ping任何IP都ping不通,系统日志也没有报错,最后我重启了网卡,机器恢复正常。
二、原因分析
服务器使用的开源的CentOS操作系统对网卡存在兼容性问题,现场使用的操作系统内核是:
Linux version 2.6.18-164.el5
CentOS是RedHatOS的免费编译版本,和RedHatOS基本相同。经过RedHat和网卡厂商的多次确认,RedHat OS在对Broadcom 5709网卡的驱动bnx2支持上存在一个兼容性bug----在某种特殊场合当业务数据流量过大时(即网口负荷过大时),小概率会导致网卡不通导致业务中断,可以参见RedHat对于该问题的描述:
通过该图片描述可以看到,在kernel-2.6.18-194.3.1.el 版本以下的Redhat以及CentOS 操作系统,使用Broadcom 5709网卡芯片的服务器上都会存在此问题。MSI(Message Signalled Interrupts)是一种PCI设备使用的中断机制,多用于网卡且不适用多核;MSI-X是MSI的提升版,开启网卡驱动的MSI-X功能可以提升网络性能,但是会对OS增加负荷,OS若是无法适应网卡运行状况,无法处理数据(尤其是异常大的流量),就会出现异常状况,关闭MSI-X功能之后网卡会以网卡的普通性能工作,就不会使OS负荷过重,从而避免发生异常。
三、故障解决
禁用 Broadcom 5709网卡驱动bnx2的MSI功能(操作步骤如下)。
(1)登录服务器操作系统打开终端,输入“vi /etc/modprobe.conf”进入文本编辑模式。
(2)在文本结尾处添加一行“options bnx2 disable_msi=1”(如下图所示),保存退出并重启系统。
(3)系统重启后在终端输入“grep –i eth /proc/interrupts”,通过返回结果查看MSI是否已被禁掉(MSI禁用后将不会显示PCI-MSI-X的字样),如图所示。
未禁用MSI
已禁用MSI