公司使用的是HP gen8机器,用的是p420i阵列卡,同时在系统的另一端,nagios监控系统配合nrpe脚本check_hpasm定期检测硬件健康。
最近为了让机器更带劲,加上了SSD硬盘,机械硬盘仅用作大容量存储,在感受速度与激情的同时,悲剧接踵而至。
nagios 监控报警,硬件出错:
CRITICAL - da controller 1 in slot 1 needs attention, System: 'proliant dl3x0e gen8', S/N: 'CN74xxxxx', ROM: 'P73 12/20/2013'
Performance Data: pc_1=65 fan_5=27% fan_6=27% fan_7=27% fan_8=27% temp_1_ambient=23;42;42 temp_2_cpu#1=40;70;70 temp_4_memory_bd=24;87;87 temp_6_memory_bd=25;80;80 temp_7_memory_bd=26;80;80 temp_8_memory_bd=26;80;80 temp_9_memory_bd=25;80;80 temp_10_memory_bd=25;80;80 temp_11_memory_bd=26;80;80 temp_12_system_bd=35;60;60 temp_13_system_bd=44;105;105 temp_14_system_bd=33;95;95 temp_17_power_supply_bay=26;80;80 temp_18_power_supply_bay=25;80;80 temp_19_system_bd=25;110;110 temp_20_system_bd=21;110;110 temp_21_system_bd=24;110;110 temp_22_system_bd=26;110;110 temp_23_system_bd=21;65;65 temp_26_system_bd=35;100;100 temp_28_system_bd=28;90;90 temp_29_i/o_zone=85;100;100 temp_31_i/o_zone=32;80;80 temp_32_i/o_zone=25;80;80 temp_33_system_bd=32;80;80 temp_34_system_bd=30;80;80 temp_35_system_bd=30;80;80 temp_36_system_bd=31;80;80 temp_37_system_bd=29;80;80
由于报警内容非常含糊,像是一颗***,根本不敢将机器正式投入运营,不得不将机器从机房运回来仔细测试。感觉是硬件故障,但是替换了阵列卡甚至重装了N次操作系统之后,依然报相同的错误。如果不用SSD,只使用普通硬盘,就不会报错。
最终的问题定位到了HP 阵列卡里的HP SSD smart path 功能,该功能可以加速SSD盘读写,有点混合硬盘的味道,即当作机械硬盘的缓存。但是很抱歉,如果你使用SSD硬盘安装操作系统的话,会有上面的报错。
解决办法:
yum install CentOS/7/x86_64/10.0/hpssacli-2.0-22.0.x86_64.rpm
/usr/sbin/hpssacli controller slot=1 array a modify ssdsmartpath=disable
hpssacli-2.0-22.0.x86_64.rpm ,经过测试,这个包centos 6/7 都适用。
在RHEL5.3上配置基本的Nagios系统(使用Nagios-3.1.2)
CentOS 5.5+Nginx+Nagios监控端和被控端安装配置指南
Ubuntu 13.10 Server 安装 Nagios Core 网络监控运用