云时代如何简化数据中心网络运维?

时间:2021-11-10 15:55:33

文/余立

华为企业网络产品线数据中心网络领域总经理


SDN,在经历了犹豫彷徨、百家争鸣之后,目前已成为企业CTO的坚定选择。

SDN时代的网络展现出两面性:一方面让客户使用更加简单,另一方面却让运维更加复杂。而当前,整个行业的目光多聚焦在前者而忽略了后者。

随着SDN的部署如火如荼,一丝忧患也隐隐浮现。2015年12月,管理行业研究机构EMA(Enterprise Management Associates)针对100多家企业的调查结果显示:70%左右的客户对于现有管理运维体系是否适用于SDN场景表示担忧。Gartner于2015年7月发布的通信网络技术成熟度曲线(The Hype Cycle)也显示,SDN相关的运维技术处于泡沫化的底谷期(Trough of Disillusionment),将在2~5年内进行大规模商用部署。

华为早在全面拥抱SDN初期,就把SDN运维作为关键课题进行研究和实践,下面分别从WHY、WHAT、HOW这3个纬度展示华为对SDN运维的思考。

云时代如何简化数据中心网络运维?

WHY:SDN运维的新变化

相对于传统网络,SDN时代的网络有如下的特征:

  • 动态网络:动态是指根据应用需求按需创建和删除逻辑网络。比如某企业用户反馈,在运维中需要投入50%的工作在防火墙的规则上,主要原因是随着应用的变迁,防火墙规则没有随之变迁,造成网络沉淀和碎片。
  • 实时响应:传统网络的设计主要是面向人的界面,基于分钟级别慢速的原则,比如使用了几十年的SNMP机制。这种慢速机制,在SDN的快节奏中成为“吐槽”点。某企业客户抱怨其轻载的网络存在瞬态的突发丢包,怀疑存在毫秒级别的微突发流量,但是在分钟级别的SNMP机制下无法观察到,更无法优化。
  • 大规模:大规模有两个含义,其一是管理的设备数量。从物理网元到逻辑网元vSwitch/vRouter,其数量增加了50倍;其二是处理的故障数量。据LinkedIn披露,从2010年到2015年,需要处理的故障增加了18倍,但管理人员仅增加了几个。

要应对上述SDN网络的3大问题,传统的“人工运维”方式贤德捉襟见肘、难以为继。

WHAT:SDN运维内涵

为了满足SDN下“动态性、实时性、大规模”的挑战,华为提出需要对整个运维架构进行变革,才能让SDN“管用、好用”。新的SDN运维架构需要围绕下面几个方面打造:

可视化:看得见,看得清

俗话说“You Can’t Manage What You Can’t See”。“看得见”有两个方面的含义:

  • 观察对象可视:可监控物理和逻辑对象,包括网元级别的节点和接口等,也包括网络级别的链路、逻辑路径和应用质量等。
  • 观察的实时性:支持毫秒级别现象的感知(比如流量微突发)、低频率(<10-4)的丢包,以及大象流和老鼠流的识别等。
  • “看得清”意味着针对观察的准确性,需要采集和分析海量的数据。包括:
  • 精确计费:采集的比例需要从8K:1到2K:1,甚至1:1全量采集。
  • 疑难问题定位:基于采集的“大数据”和实时分析,及时发现偶发性丢包和流量黑洞等。

自动化:自修复,自优化

传统的网络运维架构是一个单向的系统,而不是一个负反馈系统。网络运维包括两个方向:管理员在下行方向配置网络,然后通过上行方向获得网络的状态,也就是说,网络的部署和状态是割裂的,通过管理员进行有限的沟通。这种机制显然无法满足网络故障自修复和网络自优化的需求。自动化的运维需要构建“闭环”运维架构,具体包括:

  • 延迟修复:发现故障后,首先隔离故障,不影响现有业务。
  • 诊断修复:结合采集的“大数据”和经验数据库,进行自动修复或给出明确的修复方案。
  • 网络优化:及时发现网络存在的“病态”,如流量不均衡和流量拥塞风险等,通过闭环系统,由网络部署系统自动进行调整,把故障消灭在萌芽状态。

HOW:SDN运维方案

基于SDN下的运维新变化,华为分解了运维的生命周期,构建了“闭环”的运维负反馈系统,称为Fabric Insight架构,包括如下4个模块:

Monitor:监视

为了解决实时,海量的数据监视,需要在如下两个方面改进方案:

  • 改造采集通道,满足海量数据上报:对于中规模的数据上报,采用gRPC等高效的采集通道替代SNMP等;对于大规模的数据上报,直接采用数据面基于UDP的采集通道,消除管理面CPU的带宽限制。
  • 改造采集点,满足高频采集:在数据中心交换机上设计专门的高频采集部件,满足毫秒级的事件采集。

Detector:探测

未来及时发现端到端业务路径的质量,需要通过实时发送探测报的方式,对网络进行“扫描”。区别于传统机制的“随机扫描”,华为结合网络的拓扑和路由,支持更精确的“定向扫描”,可以做到真正的全网全覆盖。基于这种能力,管理员就不再是“救火员”,而是运筹帷幄的“诸葛亮”。

Metrics:度量

在某些情况下,网络质量显示正常,但是应用体验下降。探测机制无法解决这种问题,就需要基于真实的业务流进行度量,发现该业务流是否存在丢包和时延问题,如果丢包,丢包位置在哪?如果时延大,是什么因素造成的?

Diagnosis:诊断

诊断就像老中医看病,通过Monitor、Detector和Metrics进行“望闻问切”后,再结合经验库的案例,定位出问题的根因。诊断部件由一系列的工具组成,每个工具针对特定的问题。比如环路诊断工具、丢包诊断工具等。

华为秉承开放的理念,开放基本的运维API,客户可自助地开放和定制自己的诊断工具集。


(更多华为资讯请关注华为开发者社区,华为自己的对外开放门户:http://developer.huawei.com/ict/cn/ ,不要问我叫啥,别人都叫我雷锋

云时代如何简化数据中心网络运维?