服务器硬件维护攻略

时间:2021-08-13 21:44:40
服务器硬件维护攻略

作者:田逸(sery@163.com)《网管员世界》2007年第五期B

 

要把服务器硬件维护这样的事情付诸于笔墨,是一件不容易的事情,因为我们大多数的精力都集中到系统和应用这些方面了,硬件维护方面可以用文字描述出来的似乎不多。不过以我的从业经验来看,好的维护策略能使服务器延年益寿。下面先从2次事故开始,再归纳一些常见的维护措施。

 

事故一:某研究所的中心机房在一个大楼的顶楼,5.1长假期间大楼搞装修,动作非常大。当时在重庆休假,因故障被紧急召回;到机房一看,天啦,机房里全是水!原来是装修的在屋顶施工,把楼顶弄通了,以至于大量的自来水和雨水漏进机房。服务器的外壳、主板全是水,不坏才怪呢。

 

事故二:某公司内部机房放有服务器、交换机等设备数十套,发热量具大,因空调损坏,散热成了大问题,有好多次因为机房温度过高导致服务器及交换机罢工的经历。刚好机房是靠窗的,打开窗户散热于是成了唯一的选择(等待物业维修空调很是费时)。不幸的是,终于来了一场暴雨,靠窗的那个机架上4个服务器、2个交换机、1个路由器全淋湿了,3个人赶快用纸巾、抹布、电吹风给设备除湿,结果还是有2台服务器毁坏了(哈哈,交换机质量真棒!)。

 

当我第一次走进IDC机房时,很惊讶为什么有那么多机器托管在这里。经历上述2起事故后,我才明白把服务器放在一个安全的地方是多么的令人安心。直白一点的讲,如果要靠服务器来赚钱这样的重要业务,强烈建议把它托管到IDC机房。找好服务器的安生之地以后,最值得关注的就是硬盘了。尽管scsi硬盘支持热插拔这样的功能,但在服务器运行过程中尽量不要这样操作,等系统停止硬盘不再旋转后在插拔;硬盘的轻拿轻放也是必须牢记在心的。电源也是一个容易出故障的地方,如果服务器配置了双电源,最好把2个电源都用上,一旦某个电源损坏还有另外一个电源继续工作。

 

回过头再来谈散热。人们总是喜欢把很多服务器堆叠在一个机架上以节省宝贵的空间,几个机器直接迭在一起的比比皆是(我现在工作的地方通常是31U的机器直接堆放),这样放散热肯定不好,如果是放在机柜里的话,最好是一个隔板放一个设备,这样设备之间就会留出间隙,散热效果就会好很多。夏天来了,一定要给机房安装空调器,使服务器有很好的散热效果。

 

服务器长年累月的运行,机箱里会吸附很多灰尘等杂物,这些杂物首先影响散热,有时也会导致机器启动不起来,如内存条金手指沾灰尘就会导致机器不能起来。一般而言,大概每隔半年清理一次灰尘。清理服务器的用具有毛刷、吸尘器、螺丝刀等,打开机箱盖,把cpu、内存条等全从主板上拔下来,然后用吸尘器把主板和插槽清理干净;再检查cpu的风扇,拨弄一下看其是否转动顺畅,不顺畅的话用无水酒精浸泡清洗,如果清洗后出现转轴松动则应该换一个新的风扇;机架式服务器,风扇与cpu不在一块,它是单独的模块,插拔比较容易,也需好好清理一下。最易沾染灰尘的东西是cpu散热片,花点时间把缝隙里的灰尘用毛刷刷,然后用吸尘器吸,尽可能的把灰尘清理干净。涉及到保修问题,最好不要把电源拆卸,用吸尘器吸一下就可以了。拔下来的内存条、网卡等插卡,用防静电布把它与插槽相接处的面擦拭干净。

巡检是一个常规任务,通过看服务器前面板的指示灯状态了解服务器的运行情况;用手摸摸服务器的外壳,看是否过热;用耳朵听服务器的声音,判断风扇、硬盘等机械部件是否正常。好一点的IDC机房,会在机柜里放一个温度计,这是一个不错的办法。

 

以上只是从硬件的角度整理了维护的一些措施,目前有些工具可以远程监控cpu温度、风扇的转速等指标,更可根据这些数值设置阀值,一旦某个指标超过阀值监控平台就会发送邮件和短信自动报警,通知系统管理人员及时处理。限于篇幅就不再详述。

 

 

                                               2007-5-12

本文出自 “sery” 博客,请务必保留此出处http://sery.blog.51cto.com/10037/27830