网络机房搬迁的实施与经验
一、 背景
——随着企业发展会涉及办公、生产场所的新建、搬迁或机房改建等多种情况,这其中网络机房迁移就是一项非常重要的工作,涉及多类不同设备,包含单位核心数据、诸多核心资产等,可以说机房的迁移是一项细致而精密工程。
——2012年我担任某大型企业机房搬迁项目的顾问时就遇到过机房搬迁的咨询项目,此次新机房的建设完全按照IDC机房建设标准实施。由于目前缺乏可借鉴的经验,策划人员在机房规划布局、动力系统安装、网络布线、防雷系统安装、KVM(远程控制系统)选购等关键环节上反复论证,咨询了行业内外众多专家,克服了重重困难,于2012年年底基本完成机房建设工作。机房建设全部竣工以后,机房的搬迁工作即成为信息中心的重要工作之一。
——机房搬迁工程复杂,不仅要把200多台网络设备安全迁移到新机房,而且要求网络系统的迁移和集中存储系统的迁移必须安全平稳,不能过长时间影响生产应用。同时此次搬迁规模大、难度高,没有任何可以借鉴的经验。
——经过多次沟通能感受到该公司信息主管对机房搬迁工作非常重视,并成立专门项目组,总体负责网络机房搬迁工作,并根据搬迁工作的特点制定了各部门的工作职责。与此同时,为保证搬迁的平稳、可靠,确定了“分批搬迁、平稳过渡”的总体搬迁方针。经过反复论证、数次讨论,制定了详细的搬迁方案。
——为保证搬迁工作的万无一失,各系统在制定了周详的迁移方案的同时还分别制定了应急回退方案,确保在搬迁过程中出现异常问题时可以及时恢复生产。2012年7月,在正式申请立项后,并提交了机房搬迁方案。10月分别进行了测试服务器、测试终端及部分非重要服务器的二次小范围搬迁工作,既对机房基础环境进行了验证,同时也积累了大量宝贵的搬迁经验。
二、 准备充分,实施顺利
——机房搬迁的前期准备工作基本就绪之后,集团公司召开了搬迁领导小组会议,确定涉及生产环境的网络设备、综合前置、通用网关、集中存储等200多台设备的正式搬迁工作于12月15日开始。考虑到网络环境的调整和集中存储与各个应用服务器之间复杂的系统关系,为了减少搬迁风险,信息中心对搬迁的设备进行了细致的分析研究,最终按照“网络先行,应用平稳,主备分开”的原则,设备分为三个批次进行搬迁。
——在正式发出通知后,于12月16日下班后,搬迁工作如期开始。第一批搬迁工作于次日凌晨1:20顺利结束;12月17日,第二批搬迁工作由于涉及线路割接和存储系统(磁盘阵列)的搬迁,持续10个小时之久,由于涉及体积较大的磁带库的搬迁,搬迁过程非常复杂,新旧机房采取搭架吊装的方式进行;第三批搬迁于12月19日进行,涉及多台SUN服务器和IBM小型机等以及服务器的数TB的生产环境的数据迁移,持续时间近8个小时;工作组成员放弃了很多节假日休息,克服了重重困难,在保障正常生产运行的同时,完成了大到方案制定、人员组织分工、技术准备,小到每台设备尺寸测量、定位,相关工具准备等庞杂的工作。正是在所有参与人员的共同努力下,新机房的搬迁工作顺利完成,未出现断网情况,未出现任何生产事故。
前提条件:
——新址工作区必须是装修完整,空调、照明配套,特别是主机房应摆设好相应机柜、机架,并配有准确可靠的强弱电布线设施。
现有设备分布情况:
——本次机房搬迁涉及的设备主要有:90多台IBM、HP服务器,5个盘柜,多台HP UPS,90多台路由及交换设备,3台代理服务器(包括硬件代理)以及数台网管工作站等。
搬迁工作步骤:
总体原则:搬运网络设备优先搬运服务器,然后再搬运终端设备如PC
1). 绘制图纸,详细对比搬迁前后的情况;提前规划各个机柜、各个网络设备的摆放位置,还要事先量好机器的具体尺寸,对所有设备进行编号,并填入登记表中之后到现场规划机器的具体摆放位置,力争最合理、最充分地利用机房的有效空间。此处需要注意的问题:如果需要扩展机柜,则提前将综合布线的数据信息点打在配线架上,这样,等把交换机路由器等网络设备搬迁过来,安装好跳线,则网络就可以正常使用。
2). 系统备份:分系统的数据备份,可使用USB移动硬盘进行备份;保证所有数据不外泄露;备份同时可以进行按图纸,在设备的显著位置贴编号(两个),保证在搬迁时不被刮落。
3). 对设备进行分类统计:其中的设备包括UPS、配线架、核心交换机、服务器、防火墙、存储设备等,我们对于机房目前涉及的设备统计,给出进一步详细的设备统计信息,包括设备型号、配置、所在的网络等,在搬迁之前给出相应的表格记录文档,确定相关的辅助设备配件等,同样需要有详细的记录文档。
4). 网络设备保洁处理、加固处理、外包装装箱处理。
5). 关闭系统、断开系统电源、从各服务器拆卸硬盘分别编号包装。
6). 网络及安全设备停机和拆离: 在网络机架上按照交换机、中心交换机、路由器、入侵检测、防火墙的顺序将设备依次关闭,待系统完全停止后切断电源。将设备从机柜中拆离并整理线缆,注意记录各个设备在机架上的位置。此外备份交换机IOS,及配置文件。
(1)用console和一根直通网线将PC与交换机相连,以com1口为例.前者为配置而用,后者为传输而用。
(2)打开一个超级终端(或minicom),并设置好连接参数。
(3)登陆到交换机执行copy flash tftp命令, 经过数分钟时间,即可将IOS下载到指定的目录。
a). 关闭电源步骤:先关掉所有的服务器工作站,关掉交换机路由器等用电设备,然后关掉总的电源,最后才进行服务器的拆卸。(注意关机前备份配置文件,长时间开机的服务器需要在正常操作情况下备份关键数据,以防起不来系统)
b). 服务器重启正确操作
关机操作:
关闭操作系统;
关闭主机电源;
关闭外设电源(如磁盘阵列,磁带库等);
关闭其他设备电源和机柜电源;
关闭总电源。
开机操作:
打开总电源;
打开计算机机柜电源;
打开外部设备电源(如磁盘阵列,磁带库等 );
待外部设备自检完成后,最后打开主机电源。
加电启动机器,如果机器能够启动,说明系统完好;如果加电之后就有问题,说明系统在搬迁之前就有问题,不是在搬迁过程中造成的。
c). 先要备份Server上数据文件。其次服务器的应用程序全部停掉;使用系统相关的命令检查操作系统的运行状况是否正常,然后进行关机;如果实在关不了可以使用poweroff,不过这样可能会造成部分文件丢失。
d). 在关闭操作系统之后还需要关闭UPS。操作之前要掌握UPS的情况,力求要做到每一条线缆都心中有数,所有的配置,每个接口都要一清二楚,电池,线缆都要贴标签。在给设备做标签时,一般是采用贴设备铭牌的方式,线缆采用专用的标识环。
UPS电源重启正确操作
正确关闭UPS电源的顺序:
——先将连接到UPS电源输出端的负载逐一关闭掉,之后再将电源控制柜上的电源开关关闭掉就可以了。
打开UPS电源的正确顺序:
——搬迁的过程中注意不要接触磁性物质,正确的开关的步骤一般情况下,打开UPS电源的正确顺序应该是:先检查UPS电源的输入端电源极性与市电供电线路的电源极性连接是否一致,然后再检查 UPS电源输出端所接负载的总功率大小是否在UPS电源的额定功率之内;满足了上面的条件后,打开 UPS电源控制柜上的电源开关,来让市电为UPS内的电池组进行供电,过一段时间,再将负载的电源开关逐一打开,如此一来可以确保负载电流,不会对 UPS电源的内部供电线路造成过度冲击,从而可以有效保证UPS电源不受内伤。在机器加电启动之后,重新关机掉电。把机器后面的电源模块关掉;把机器电源所在机柜上的电源做好标记,还要检查好是不是彻底没电了,这样工作起来才安全。
e). 拆机柜:机柜都非常重,所以在这种情况下能拆的尽量拆掉两侧的铁板,把门卸掉。通过电梯运到一楼,把机器搬到楼下之后,找一台插车把设备叉到运输车上。
f). 拆交换机:首先关闭电源,然后把跳线收好,再拆除GBIC模块。收好插线板。
g). 服务器的运输过程,运输的过程中,最主要的是防止服务器与其他设备等东西碰撞
h). 分系统顺序搬迁到新机房,按事先确定的位置进行初步放置,待最终调试结束后固化安置
i). 先将10KVA UPS及5KVA UPS主机及电池组搬迁至新机房并安装调试。调通新机房所有电气工作环境,为搬迁及前期设备调试提供完整的电气工作环境
j). 设备上架安装(前提机柜事先都弄好,OA,及时通,项目管理,代理先上线,其次是邮件、防毒,电子档案等服务器) 所有设备按照原先记录的位置将网络及安全设备上架并连接,交换机和路由器上电开机,检测其设置及连接是否正常,保证网络正常运行,防火墙等网络安全设备上电开机,检查其参数及规则设定,检测搬迁过程有没有损坏设备硬件,以及原有设备规则设定是否保存良好。
服务器的搬入,在服务器搬入到新的机房后,首先确定好服务器的放置机架,检查电源等相关事项是否做好,最后,服务器上架进行物理连接。
——当把服务器放上机架并做好物理连接后,要做的事情便是打开服务器,查看数据是否出现了损坏,并进行相关的软件的设置。要进行的工作大致包括如下的几项:
1). 新机房放置服务器时需要注意:当我们把服务器放上机架并做好物理连接后,我们要做的事情便是打开服务器,查看数据是否出现了损坏,并进行相关的软件的设置。一般来说,要进行的工作大致包括如下的几项:
1.服务器状态的恢复,查看是否出现了数据的丢失或损坏。如果是出现了这种数据的损坏等,不要怕!我们应该把搬迁前的数据重新恢复过来。
2.进行相应的IP地址的调整。
3.进行相关DNS设置的调整。
4.进行相关VLAN设置的调整
5.进行相关软件的调整。
6.进行全网服务器的测试。
7.所有的服务器重新启动,看服务器运行的速度和质量等指标是否达到标准。
8.验收并进行相关的日志纪录。
服务器状态的恢复,查看是否出现了数据的丢失或损坏。如果是出现了这种数据的损坏等,不要怕!我们应该把搬迁前的数据重新恢复过来。
2.)进行相应的IP地址的调整。
3.)进行相关DNS设置的调整。
4).进行相关软件的调整。
5).进行全网服务器的测试。
6).所有的服务器重新启动,看服务器运行的速度和质量等指标是否达到标准。
7).验收并进行相关的日志纪录。
10. 数据检查及应急恢复
如有丢失则从实现备份的活动硬盘中备份数据恢复
注意事项:
1. 设备清洗:打开机壳清洁服务器内表面的积尘对于服务器内表面上的大面积积尘,可用干布喷上专业的清洗液擦拭。布应尽量干,擦拭完毕应该用晾干。各种插头插座、扩充插槽、内存插槽及板卡一般不要用水擦拭。也可以用刷子刷或吹掉灰尘。
2.安排独立的车辆对服务器进行良好的保护,并限制车速,避免颠簸;准备纸箱子,铺在运输车的底上,一是增加摩擦,二是防止把机器刮坏了.准备多个大的木箱子底座,因为有的机器(如机房电池)非常重,需要用叉车才能装少运输车上,不建议用插车直接叉在设备上,所以要找一个底座,一般在设备到货的时候拆下来的那个就非常好用.
3. 搬迁过程前期要与设备质保方商谈设备搬迁过程的质保情况。
4. 搬迁涉及的费用:设备搬迁劳务费,设备搬迁技术服务费
现有系统拓朴图:
——现有网络拓扑非常关键,我们核对了原先保留了拓扑,并现场重新绘制新的拓扑,由于保密需要这里提示拓扑示例
四、经验和体会
——对于此次机房的大规模异地搬迁进行了一次尝试,在机房建设和管理方面也进行了积极探索。通过此次搬迁我们感觉到机房的搬迁过程中有以下几个关键点。
(1)搬迁技术方案必须周密细致、切实可行。其中重点是如何将生产服务器的搬迁与网络迁移方案有机结合。网络的迁移是最基础的工作,只有在网络畅通的前提下才能考虑服务器的搬迁。同时,网络迁移又势必造成维护重心的转移,最关键的应用必须随着网络的迁移而同步迁移。因此线路割接、交换机调整等网络迁移操作绝对不能与生产服务器的迁移分开而单独实施。基于上述考虑,我们最终确定了最关键的服务器、存储、网关随着线路割接而同步迁移,同时主要搬迁过程控制在1-2周以内,尽可能降低主要业务等其他关键应用因网络迁移而带来的风险。
(2)要提前预测搬迁风险。通过前几次对测试机房的测试性搬迁,我们总结出对于大型机房的搬迁主要存在四方面的风险,包括:设备故障风险,即设备在搬迁过程中所出现的损坏;操作风险,即线路割接、上联路由器切换、集中存储系统迁移、关键应用数据迁移(包括数据备份与恢复)、大型设备搬迁等均属于高风险操作,这些环节虽经反复论证在理论上可实施,但操作复杂且无法进行演练,在搬迁过程中很可能由于操作问题带来安全隐患;人员风险,即在搬迁过程中现有技术人员既要负责搬迁工作,又要负责日常生产运行的维护管理,搬迁人员少或精力不够也容易产生风险;其余不可预知风险,如系统的意外瘫痪、运营商线路问题等。在预知这些风险以后才能提前做好预防工作。
注意:
1).硬盘最好单独包装,IBM server 需要用木制包装箱。交换机多台用硬纸箱包装
2).事先在网络交换路由设备关机之前别分好现有配置,和以前备份的配置文件收集好,然后最好联系事先HP,IBM,APC,Cisco工程师的网上或手机等联系方式以备急用。
(3)充分调动一切资源。
——机房搬迁是一项极为复杂的工作,不仅涉及行内众多的技术人员,还涉及相关业务部门、服务商、搬运公司等各个方面的人员及各种搬迁所用的器材,其中任何一项都与搬迁进度紧密相关。我们除了与各业务部门密切分工协作外(科技部和业务部门负责分发公告、测试验证),还提前召集所有相关的服务商进行了方案论证,并要求各服务厂商最大限度地准备技术支持人员和相关配件。另外,在充分总结前几次试验性搬迁的基础上,我们在装箱、搬运、装机等比较耗时的环节上增加了人力、工具、通信、车辆配备,极大提高了搬迁效率。
(4)采用流程化搬迁方式。
——搬迁前,机房管理员专门绘制图纸,详细对比搬迁前后的情况;提前规划各个机柜、各个网络设备的摆放位置,还要事先量好机器的具体尺寸,对所有设备进行编号,并填入登记表中之后到现场规划机器的具体摆放位置,力争最合理、最充分地利用机房的有效空间。搬迁工作大致分为关机、拆卸、装箱、运输、装机、连线、验证等几个环节,由于每次搬迁都有严格的时间要求,而且涉及人员较多,所以搬迁要有条不紊、高效有序。为此,对新旧机房的不同特点,设立了两个搬迁总调度,分别负责两个机房的搬迁协调工作,并根据搬迁过程中不同阶段的工作设立了关机拆卸组、装箱组、运输组、装机组、验证调试组、技术支持组、后备应急组等七个小组,在明确了各组职责的同时实行组长负责制,由组长定期向总调度汇报各组情况。制定了搬迁例会制度,在每次搬迁结束后及时对上一批的搬迁进行总结,并对下一批的搬迁工作进行确定。在搬迁之前,对所有设备信息进行了详细的统计,在此基础上形成了每次搬迁的搬迁调度表和搬迁流程表,交由各组掌握。在搬迁过程中要求各组必须按照这两份表格进行,每完成一个环节,该组组长都必须要在搬迁调度表上确认后,下一环节才能继续进行。按照这样的流程执行之后,我们每次搬迁都没有出现因各环节的衔接问题而耽误进度的情况,更没有出现误操作的现象。
注意,这里强调一下作为专业人员需要了解设备尺寸和重量,下面举例来说
1.APC电源 Smart-UPS RT 10000
最大高度尺寸 26.3 cm
最大寬度尺寸 43.2 cm
最大深度尺寸 66.3 cm
重量: 90KG
2.APC Smart-Ups 5000
尺寸(H*W*D,mm) 8.5*43.2*48.2cm
标准机柜高度(U) 2
净重/运输重量(KG) 23/27.8
外形尺寸: 30×42.7×4.4cm
CISCO 3560
尺寸和重量(高×宽×厚): 1.75 x 16.3 x 17.5 英寸 (4.45 x 41.3 x 44.5 cm) (Catalyst 3550-48) ,一个机架单元(RU)高 ,13 lb (5.9 kg) (Catalyst 3550-48)
重量 (最小4.66 kg)
设备装箱实例
台盘柜服务器选用木板包装箱,UPS,核心交换机都需要木箱包装,其余用纸箱包装
——当然机房这设备不止这些,对于不同重量的设备所采用的包装也不同,一般的设备用厚纸箱,而20KG以上的设备就要订木箱,尤其是磁盘整列就需特别防护,单独拆卸分开运输。
硬盘保准技巧:
硬盘先套屏蔽袋平口袋,然后每块间隔用气泡卷料,如下图所示
(5)做好系统的充分验证。
——根据每一批搬迁的特点我们提前与相关的业务部门沟通,由业务部门负责根据在变更时间内对业务的影响程度及时向外发布公告,同时,在系统恢复后进行系统验证。
——“凡事预则立,不预则废”,的确是这样的。对于一个公司的网络机房而言,搬迁工作涉及到服务器、交换机、路由器、工作站等大量的设备,当然还有不少软件的问题。这样多的问题需要我们去解决,正因为我们在这次搬迁过程中做了大量而充分的准备工作,所以在整个搬迁过程中未发生一起在变更时间外影响生产的问题,最大限度地保证了生产的稳定运行。通过这次机房搬迁的实战演习,不仅锻炼了技术队伍,也在大型机房的建设和管理方面积累了一定的经验,并为今后单位信息系统的安全平稳运行打下了坚实的基础。
附件:
1.搬迁清单
1、IBM S2 25U Standard Rack and IBM S2 42U Standard and Expansion Racks
Installation Guide 服务器机柜使用说明 1份
2、IBM Distributed Power Interconnect Rack Power Distribution Unit
Installation and Maintenance Guide 服务器电源使用说明 1份
Statement of Limited Warranty Customer Notice 1 份
3、3650;3950服务器说明书 3 份
4、黄色的资料袋 2 份
5、光盘
... ...
2.设备情况表
列出每个机柜的设备详细清单
1 |
Hp proliant dl 380 G6 735W/单电 |
300G * 4 |
|
2 |
Hp proliant dl 380 G6 735W/单电 |
300G * 4 |
|
3 |
... ... | ||
3.各类网线、电线、跳线对应表(此处略)
4.设备包装标识(更多参照国标代码:GB191-2000),这些标识需要粘贴到设备包装箱上。
本文出自 “李晨光原创技术博客” 博客,转载请与作者联系!