浪潮NF520数据库服务器的自动掉电故障

发布时间:2014-03-13 18:17:44

故障现象:

价值近10万的浪潮NF520数据库服务器近期频繁出现自动掉电关机现象,掉电后电源指示灯出现黄灯提示,并且再此按电源启动按钮,无法启动。必须把电源线拔下,等待放电结束后,再插上电源线才能正常启动。由于该服务器负担着政府主网站和市民心声网的数据库服务功能,因此一但停机,必然造成网站对外服务中断。而机房内的其他几十台浪潮NF280服务器一直运行正常。

故障排查及分析:

检查操作系统windows2003的事件日志,发现无任何停机记录,很明显是在操作系统不知道的情况下的突然停机,基本可以排除由于操作系统故障所引发的停机。
从现象看,首先可以断定是供电系统故障。
由于机器为新购,并且另一台相同的设备也存在同样的故障,两台新设备共有四个电源模块,都出现问题的概率极低,基本上也排除了机器本身电源系统出问题的可能。
经检查NF520服务器由于功率较大(1570W)没有经过机柜的供电系统,而是单设了供电插座,并且用一条电缆直接连接到变电开关柜,从而怀疑是电缆连接问题。经芜湖电信专业电工检查,此电缆连接极不规范,存在较大安全隐患。主要表现在两点:一是规范施工中,从供电插座到开关柜的连接电缆应该为一条完整的电缆,不能有接头。而实际上这条电缆是两根不同材质的电缆连接而成的,必然后造成电流阻抗过大,严重时会发热,产生安全事故。二是施工中选择的电缆,质量明显低于原配电缆,并且很难看清除生产厂商及生产批次,并且从外观上看应为旧电缆,内芯铜丝发黑。据芜湖电信专业电工介绍,此电缆根本无法满足专业机房使用。为此,我们使用了两条电信的专业电缆对供电线路进行了更换。并且将服务器的两个电源模块分别和两条电缆进行了连接,做到了供电线路的局部冗余。
在更换电缆后的12个小时内,系统运行正常,服务器没有停机。但在随后一天的晚上下班后,服务器再次停机。
在排除了线缆的原因后,按照继续往上一级查找的方法,对UPS供电系统产生了怀疑。

故障解决:

把主UPS的对外输出停止,从UPS设备接管稳压工作,服务器运转正常。

故障分析:

在两台UPS分主从供电的情况下,主UPS曾经出现过打火和电容虚焊的情况,对服务器的供电目前还是依靠主UPS。回想以前每次出问题的时间都是在非正常工作时间,双休日和晚上下班后。下班后,由于大楼用电量急剧减少,电压肯定增高。同时咨询了浪潮服务器的800支持电话,服务器电源出现黄灯,一般是电压过高或过低造成的。由此可以推论由于外部电压波动,而主UPS设备由于自身问题没有起到应有的稳压效果。造成了机房内电压的瞬间波动,从而引发NF520服务器的电源模块自动断电保护。
那么为什么机房内的其他浪潮服务器没有出现自动停机呢?其实原因很简单,浪潮公司只在NF520等高端产品上才配备了具有自动保护功能的电源模块。而类似NF280这样的产品上则没有配备。

后记:

故障排除后第三天的晚上11点多,领导发短信“政府网和市民心声网已断多时,请处理!”。第二天早上看见短信后,惊出一身冷汗,难道第二台UPS又出现问题了?还是我的判断有误?顾不上吃早饭,连忙打的往单位赶。一见机房只见满地的电缆和碎线,原来施工队在晚上十点多更换电缆,把主电源切断了。服务器当然无法运转了。不过由于他们是强行断电,没有按规定先关闭系统再断电,结果还是造成了个别服务器的宕机,重新启动后,基本正常。没过几日,判断故障的那台UPS自己由于电容击穿,冒烟了

浪潮服务器 服务器维修


中网通技术

北京 010-82538861

上海 021-68910296

广州 020-82038127

杭州 571-86799303

......

扫一扫