韩玉强,勤智(北京)科技有限公司区域项目经理,拥有9年IT行业经历,具备丰富的IT运维产品实施和项目管理经验。
山东省青岛港始建于1892年,是世界第七大港、我国第三大外贸口岸,现由青岛大港港区、黄岛油港区、前湾港区和董家口港区等四大港区组成。现有职工24000多人,拥有码头15座,泊位72个。
信息化作为港口建设的有力支撑,青岛港集团一直很重视信息化建设,先后建立了先进的光纤系统和无线网络;创立了国内港口规模和技术都走在前沿的EDI中心、生产指挥中心和物流信息平台;建成了生产管理、船舶资料、财务管理、资产管理、人力资源管理、设备管理、物资管理、工程管理八大主题数据库;实现了港口业务与管理的数字化、网络化、集成化,以持续的科技创新打造港口核心竞争力。
为保证信息系统的正常运维,必须建立以系统管理为核心的技术支撑平台,形成一个“以技术手段和监控工具为支撑,以流程管理为手段,以IT服务管理为核心,以满足业务需求为目标”的运维管理框架。
2015年,青岛港集团通过公开招标,选中勤智OneCenter一体化智能运维管理系统,建立了青岛港集团的IT综合运维管理平台。运维一期平台建设,将青岛港集团主干网络的IT基础设施和业务系统全面监控起来,通过网络拓扑图、设备性能视图、机房视图、设备告警视图和业务系统视图,直观反映全网IT资产和业务系统的运行状态,及时发现设备故障,变被动运维为主动运维。
需求分析
随着虚拟化平台大规模上线、机房的升级改造、大批量硬件服务器的购入和启用,需要对机房动力环境进行重新建设和一体化监控;需要对虚拟化进行一体化监控,自动生成虚拟化拓扑,快速虚拟化故障定位;需要对服务器硬件进行集中监控。2017年,青岛港集团从资源高效利用、提高工作效率、及时发现解决问题等角度出发,决定对勤智OneCenter统一监控运维平台升级,进行运维二期平台建设。
1) 对现有监控系统进行版本升级和扩容,重新规划部署架构,方便各分公司扩容;
2) 依托监控平台实现对青岛港集团虚拟化平台的一体化监控;
3) 依托监控平台实现对带外服务器的硬件监控;
4) 机房动力环境重新建设并纳入一体化监控体系。
解决方案要点
通过现场需求调研,勤智决定采用分布式部署方式进行监控系统平滑升级,新监控系统增加机房动环监控模块、虚拟化监控模块和服务器硬件监控模块。分布式的部署方式,解决了单机部署的扩容瓶颈,可以根据以后的扩容需求灵活扩充分采集器,分布式部署可实现对IT基础架构的统一管理、统一发现、统一告警、统一处理、统一报表数据管理,实现人员的统一管理、统一登录。此外,平滑的升级可保证监控资源和历史数据的完整性,避免重复性的添加工作。
1) 部署机房动力环境监测系统,并与监控系统集成,实现一体化监控。集成内容包括电力监控、空调监控、温湿度监控等性能展示和告警统一展示。
2) 添加服务器硬件监控模块,实现对服务器硬件部件的监测。监测项包括:风扇转速、机箱内部和CPU温度、电源电压、电源开关状态、CMOS电池容量、CPU、磁盘、内存、RAID卡等硬件状态等。
3) 添加虚拟化监控模块,对客户的Vmware虚拟化系统进行一体化监控。自动发现VMWare虚拟化平台集群、虚拟主机、虚拟存储和虚拟机,自动生成虚拟化的拓扑架构,提供虚拟化资源的TOPN和报表统计。
4) 预留分布式采集接口,方便后期分公司扩容。主服务器自带统一门户,可实现人员与资源权限的统一管理、统一登录。
运维平台价值
通过两期的IT综合运维管理平台建设,青岛港集团搭建起智能化、一体化的运维管理体系,建立了看得见、可预知、可计量的主动式运维管理模式,明显提高运维服务的效率和质量。
1) 建立起先进的运维管理体系:通过OneCenter一体化监控运维平台建立统一集中的管理体系,统一的数据处理和展现,统一的告警平台。统一的数据处理和展现,摆脱旧监控模式和事件的现状,在新的监控平台中集中实现,并通过统一的展现界面展现。统一的告警平台,将所有告警纳入监控管理监控平台,并通过短信、邮件和桌面客户端统一告警。
建立全集团的信息化管理员档案,根据管理职责分配资源管理、拓扑查看、业务管理权限。
各个管理员可灵活自定义首页展示模块。
系统管理员可灵活设定系统Logo、皮肤等系统信息。
2) 建设起全面的IT基础资源监控:在集团内网建立一体化平台,实现对主机、存储、网络、应用系统、数据库、中间件、负载均衡、安全产品、动力环境等软硬件设备运行状态的实时监控,消除监控死角,及时发现安全隐患,并进行报警处理。
帮助客户自动生成集团拓扑,通过拓扑分组建立起各分公司的子拓扑,直观显示网络架构、设备的运行状态和网络链路的性能和通断情况。
主干拓扑
分公司子拓扑
通过设备性能监控和告警阈值设定,直观展示设备运行的健康状态,产生告警后通过告警管理可快速故障分析。3) 实现机房动力环境的一体化监控管理:通过OneCenter的机房动力环境监测系统建设,对信息中心主机房内动力环境(如温度、湿度、烟感、漏水、UPS、门禁、视频等)进行集中监控;与监控系统进行一体化的集成,实现了功能展示和告警的统一管理。通过一体化监控,故障响应和处理更及时,大大提高了机房管理的效率和质量。
主页集成
空调监控集成
电力监控集成
门禁集成
4) 全面的服务器监控:通过OneCenter的带外服务器硬件监控模块,实时掌握机房内的IBM、浪潮等服务器硬件运行状态,如风扇转速、机箱内部和CPU温度、电源电压、电源开关状态、CMOS电池容量、CPU、磁盘、内存、RAID卡等运行状态,结合操作系统监控,真正实现全方位的主机监控管理,有力保障了业务的正常运转。
硬件监测主性能
5) 服务器虚拟化的一体监控:勤智OneCenter的虚拟化监控模块,通过与Vmware厂家深度API集成合作的方式,实现对服务器虚拟化一体化监控。它以拓扑图的形式将虚拟主机、虚拟网络、虚拟存储等资源连接关系进行展现,逐层显示虚拟资源的当前状态和告警信息。此外,系统还提供丰富的TOPN、虚拟资源、性能、告警统计报表。一体化的虚拟化监控模式,方便运维人员全面了解当前虚拟化资源的性能和容量趋势,准确对虚拟化系统的运行态势做出正确判断。
资源统计
6) 构建实时、准确的资产配置管理库:青岛港项目在一期建设中通过勤智OneCenter的资产管理工具实现对信息中心IT资产进行基本信息和使用状态步步追踪,实现全生命全周期的资产配置管理,帮助资产管理员对所有资源台账一目了然,对资产的使用状态准确记录,可提高资产设备的重复使用率、及时淘汰报废设备、更新所需设备,提高资产使用率,降低IT资产投入。
7) 丰富、准确的运维报表统计:勤智OneCenter报表统计工具,采用独立自主报表设计器,基于现有的采集、处理和运维数据,提供一系列性能、故障、排名、资产和运维统计报表。通过报表,青岛港信息中心部门领导可随时查看大量的运维数据,为日后的IT投资方向和运维改进决策提供参考数据。