你有没有好奇过,如果发生地震或其他自然灾害,你在某家银行的账户信息是否会丢失?你存在银行的钱还在吗?
其实,这并不用我们操心。银行的用户信息是非常重要的数据,因此银行开设之前必须拥有一套完整的容灾解决方案来解决这类问题,即建立容灾系统。
所谓容灾系统,字面理解就是指容忍灾难的系统。有了这个系统,哪怕是灾难来袭,银行里的用户数据也可以安然自若。这个灾难,大到自然灾害,小到物理故障。为了保证数据的安全性和业务的可靠性,每家银行会在国内多个地区建立一个或几个容灾站点,互相之间备份数据,相当于创造几个“副本”。
当主用站点遭遇灾难破坏,导致数据发生永久性丢失时,就可凭借容灾站点的“副本”,实现数据恢复。如果没有容灾站点的数据备份,将会造成不可估量的经济损失和恶劣的社会影响。
银行有容灾系统,通信有没有容灾系统呢?答案是肯定的。每个运营商都制定了一套完整严密的容灾解决方案,来保障所有用户的通信数据,包括你的话费余额!
无论是3G、4G还是5G,每个运营商都为本地区的通信业务建立了容灾局点。容灾局点除了能保证各类数据的可靠,更能够保证业务的可用性。这才是建立容灾系统最重要的意义。
以5GC为例,与金融系统类似,5GC也采用跨地域的异地容灾部署方式。在两个不同的地区分别部署数据中心(DC,Data Center),当某地DC中的网络设备由于某种原因不可用时,由另一地DC迅速接管业务,从而保障5G业务的可用性。这就是双DC部署。双DC部署是实现部署可靠性的一种方式。
除了双DC部署,5GC容灾解决方案还提供哪些措施实现容灾呢?
部署可靠性
5GC容灾解决方案支持双DC部署、互斥部署、NF(Network Function 网络功能)分域部署、网络双平面等方式实现部署可靠性。
互斥部署是指将虚机部署在不同的物理机上,从而保证当某个物理机出现异常时,其他虚机仍能够提供服务。简而言之就是“鸡蛋不要放在一个篮子里”。
NF分域部署是指NF部署采用管理域、业务域、转发域分离的方式进行。
网络双平面是指5GC NF所有逻辑网络接口,都至少有2个不同的物理网络平面互为备份。当其中一个网络平面发生故障时,另一个网络平面能够接管所有的网络流量,保证业务不中断。
架构可靠性
5GC容灾解决方案支持负荷分担和无状态特性等方式,从而实现架构可靠性。
负荷分担是指,所有运行实例共同分担处理业务。当部分运行实例异常宕机时,由其余运行正常的实例共同分担处理业务,从而保证业务正常运行。负荷分担采用N+M冗余方式,即当N个实例可以满足系统容量的业务处理时,再提供M个实例用于冗余。
上图是典型的3+1冗余方式,当3个实例可以满足系统容量的业务处理时,再提供1个实例用于冗余。当任何1个运行实例故障时,其他3个运行实例继续工作,从而保证系统容量及业务处理不受影响。
无状态是指微服务的无状态设计。3GPP 定义了UDSF(Unstructured Data Storage Function,非结构化数据存储功能)用于统一存储NF的状态数据(又称为非结构化数据,例如移动数据等等)。
业务逻辑APP随时可以执行弹性、扩容、销毁、重生、迁移操作,这便是计算与存储分离。无状态设计在实现架构可靠性的同时,也保障了数据可靠性。
数据可靠性
5GC的NF按无状态设计,在当前处理流程完成后,将用户及会话上下文等状态数据保存在UDSF中,由UDSF对数据进行多副本保存。UDSF支持1+1冗余、双DC部署的容灾方式,从而保证数据可靠性。
资源可靠性
5GC容灾解决方案支持链路检测、自愈等机制实现资源可靠性。
自愈是指:对于持续出现故障的业务处理节点,系统会进行节点的多级自愈。根据用户的自愈策略配置,系统依次采用重启容器、重推容器、重启虚机、重建虚机逐级上升的策略进行自愈,从而尽快恢复业务。
链路检测是指:业务节点会定时发送心跳保活报文给管理节点,管理节点检测出长时间未发心跳的节点,则判定为故障节点,从而触发业务迁移流程,把故障节点的业务迁移到其他正常节点,从而保证业务的可靠性。
好了,话说到这里,你再也不用担心你的话费余额了吧,更不用担心存在银行的money了吧!你也知道什么是容灾了吧。