服务器是如何可以保持长时间稳定工作?

时间:2021-11-25 14:31:04

服务器,通常是指那些具有较高计算能力,能够提供响应成千上万用户服务请求的一种高性能计算机。服务器,虽然在硬件结构上和通用的个人计算机(PC)非常相似,但两者在性能和功能上相差甚远。

服务器是如何可以保持长时间稳定工作?

服务器主要应用于“数据库”和“Web服务”,而通用的个人计算机(PC)则主要应用于“桌面计算”和作为“互联网应用服务的终端”使用。两者在设计根本出发点上的差异,决定了服务器具备比个人计算机(PC)更可靠的持续运行能力、更强大的存储能力和网络通信能力,以及更快捷的故障恢复功能和更广阔的扩展空间,同时,对数据相当敏感的应用,还要求服务器提供“数据备份功能”。

个人计算机(PC)在一个时刻通常只为一个用户提供服务,而服务器则需要承载和响应成千上万用户的服务请求,并保持长时间的开机运行。和通用的个人计算机(PC)相比,服务器需要连续工作在7*24小时的环境中。

所以对于服务器而言,“稳定性”才是首要的,服务器必须承担长年累月高负荷的工作要求,而且不能像通用的个人计算机(PC)一样随意的重启。一般来说,服务器的可持续工作能力,通常用MTBF(平均无故障时间)来衡量的。服务器每年的宕机时间都非常短暂,当服务器可靠性为99%时,每年停机大约在87.6 小时;当可靠性高达99.999%,它每年的停机时间仅为5分钟。那么,服务器为什么能够保持长时间持续稳定地工作呢?

1、 运行环境

首先是运行环境,一般部署服务器的数据中心机房,要求无尘,室内环境良好,温度控制在零上4到40度,否则会对电子零件有影响。通常电子信息设备的工作环境温度应在“18℃~30℃”之间,理想温度为“26℃”。温度过高或过低,将会使服务器受到损害并加速其老化,从而影响服务器的使用寿命。因此,服务器一般都放置在空气流动的空间当中,有24小时的空调制冷,用于调节温度,为其服务。

2、 运行状态

服务器的运行状态影响着其使用寿命,一般服务器CPU的负荷总在80%以上,会对风扇和CPU的寿命有所影响,所以服务器一般不会超频工作。另外机房工作人员也会定期检修服务器硬件设备的工作状态,发现小问题能够及时解决。所以,一般来说,服务器能够正常使用五年以上。

3、 可靠的电源

服务器的工作离不开电源,同时电源也是计算机产生故障的主要因素。首先,必须确保服务器使用的是适当功率的电源。服务器电源的电压,一般为220V/50Hz,并朝着“低压化、大功率化、高密度、高效率、分布式化”等方向发展。UPS(不间断电源系统)保证了服务器在突然断电等情况下,还可以继续工作。其次,服务器所使用的电源与照明电源分开,使用单独的插座。

4、强大的硬件设计

服务器也是计算机,但一般来说,服务器是比较特殊的硬件设备,因为“工作岗位”的关系,有些地方设计得更为“特别”一些。针对“服务器稳定性压倒一切”的特点,服务器CPU内置多种容错纠错机制;内存使用带ECC校验芯片的内存,数据干扰出错风险比非ECC内存降低很多;服务器用的都是纯铜散热器、纯铜散热片,而且机箱风扇也都安装到位了。内置的集成显卡,大多数时间不需要工作;主板都是6层以上PCB(印制电路板),硬盘设计寿命是普通硬盘的两倍等等。这些硬件的设计,为服务器的稳定性提供了进一步的强大支撑。

5、专用的操作系统

专为服务器设计的“Windows Server、Unix和Linux”等服务器操作系统,可以在不需要外接显示器的情况下,关掉图形化界面的服务程序,甚至服务器的操作系统,是默认连声卡都没有开启的。专用的操作系统提供了“高安全性、高可靠性、高可用性和高可扩展性”,为服务器的稳定性做出了重要贡献。

6、冗余设计

冗余,指重复配置系统的一些部件,当系统发生故障时,冗余配置的部件可以介入并承担故障部件的工作,由此减少系统的故障时间。高端服务器产品中普遍采用双电源系统,这两个电源是负载均衡的,即在系统工作时它们都为系统提供电力,当一个电源出现故障时,另一个电源就承担了所有的负载。有些服务器的系统,实现了DC(直流电)的冗余;另一些服务器产品,如:Micron(美光)公司的“NetFRAME 9000”实现了AC、DC(交流电、直流电)的全冗余。

7、优秀的集群架构

如果服务器集群中,有一台服务器出现了硬件故障怎么办呢?如果是CPU(*处理器)或者内存发生故障,这样很容易导致这台服务器宕机。这种情况下,服务器的集群架构,可以让多台服务器运行同一个业务,一台或者多台服务器因发生故障而离线,并不会对整体业务造成严重的影响。

8、专业的维护

根据统计,金融企业,每次宕机损失平均为1000万美元,所造成的无形资产损失更是无法估量。所以专业的维护,对于部署了服务器的数据中心机房来说,是必不可少的。服务器在设计的时候做了大量的备份冗余,在使用时,运维人员将会定时排除故障。专业的维护人员设计了一系列的维护系统和灾后修复策略,为服务器的稳定运行做出了后勤保障。

以上8点就是服务器之所以能够保持长时间持续稳定地工作的重要保障和支撑。