资讯 > 正文

「紫曰」WBC故障自检机器人系统如何守护云网络稳定性?

2024-05-30

云网络具有复杂、动态和大规模的特点,验证其功能、可靠性和稳定性是一个挑战,需要有效的 方法来发现和定位故障。本期我们将分享云网络稳定性测试方面的经验心得

 

 问题1:云网络的典型特点有哪些?

随着数字化转型的飞速发展,业务和应用迁移至云平台已成为常态。这一转变带来了云网络系统的快速发展,其规模和复杂性前所未有。云网络,作为支撑这些业务流量的关键基础设施,呈现出了几个显著的特点:

1.  与传统网络相比,云网络的规模更为庞大,并能够根据业务需求不断横向扩展规模;

2.  软件定义网络  (SDN)和云资源编排技术使得网络变更变得敏捷和灵活,租户可以动态地调整 VPC的网络资源和配置;

3.  网络报文和头部组合的多样性给网络设备和系统带来了更多的处理逻辑和潜在风险; 

4.  复杂性的大幅增加可导致安全漏洞和风险点增多,要求云网络具备更高的安全防护能力和故障检测能力。

 

 

问题2: 如何验证云网络的稳定性,有哪些技术难点?

为了验证云网络的稳定性,我们采用了综合性的测试策略,涵盖功能性、稳定性、故障演练和模糊测试。这些方法相互补充,形成一个全面的稳定性评估体系。评估云网络的稳定性时,我们面临的主要技术难点包括:

1.  覆盖所有的网络节点和流量模型:确保对云网络中的所有关键节点和链路进行深入测试,我们的测试需要覆盖交换机、路由器、防火墙、服务器、虚拟网元,以及云主机和裸金属等,并覆盖东西向、南北向、同服务器、跨服务器、跨交换机、跨集群、跨可用区等各种流量模型。 

2.  评估网元和策略的动态变更及影响:评估网元和策略的频繁变更对网络稳定性的影响,确保系统能够灵活适应这些变化。

3.  评估异常报文和安全攻击的影响 :通过构造异常报文和安全攻击,评估网络在面临威胁时的表现,确保其抵御能力。

4.  建立实时监控和故障响应:建立有效的实时监控系统,以便快速响应并定位故障,减少业务中断。

 

 

提问3: 测试团队的应对思路是什么?

 

针对传统网络及独立网元的测试手段无法确保整个云网络的稳定可靠,我们迫切需要建立一套测试系统,它能够覆盖所有网络节点、模拟各种网络流量、自动感知网络变更、及时反馈故障信息。

为此我们开发了云网络稳定性评估和故障自检机器人系统:它借鉴了仿生学,原理是向云网络的各个节点注入一定规模的故障自检机器人,并通过机器人在整个网络中释放各种具有诊断意义的报文和信号,来实现云网络系统的故障检测。

 

 

问题4:故障自检机器人系统的工作原理是什么?

我们自研的WBC故障自检机器人系统由两部分组成:故障自检Robot和Manager中枢。

WBC_Robot:这些机器人可以自动或手动部署到云网络的任意位置,负责生成网络检测流量,并向Manager端报告故障检测结果。

WBC_Manager : 部署在云的公共服务区,负责管理Robot的分发和处理,接收Robot的心跳信号,汇聚和分析故障信息,并通过邮件系统或企业微信发送故障告警。Manager还包含一个管区代理,用于收集Robot所在VPC的拓扑信息及安全组策略。



这套系统的运行机制包含了几个关键点:

·     故障自检机器人的创建和销毁与云资源的生命周期密切相关,伴随虚拟机等实例的创建、迁移、重建和销毁等过程。当云资源被创建时,故障自检机器人也会被创建并与该资源绑定。通过将故障自检机器人与云资源实例关联,它可以自动地分布到云网络的各个节点,覆盖各个角落。

·     故障自检机器人基于干细胞模板生成,拥有多种类型(如云主机实例型、SLB实例型等),分别执行不同的故障检测任务。机器人不仅会执行东西向流量检测、南北向流量检测、ACL和安全组规则检测等任务,还会生成具有诊断意义的异常报文。这些异常报文用于评估云计算云网络对正常流量和异常报文的处理逻辑。

·     故障自检机器人会定期向故障诊断中枢发送心跳信号;一旦检测到云网故障,心跳信号将会带上具体的故障信息。故障诊断中枢将对接收到的心跳信号进行分析处理,包括对故障信息进行汇聚和诊断,并发出告警。

通过这种设计,WBC故障自检机器人系统能够有效地对云网络进行稳定性测试,及时发现和报告故障,从而确保云网络的稳定性和可靠性。

 

 

提问5:接下来的工作规划是什么?


WBC故障自检机器人系统是紫光云为了确保云网络稳定性而开发的创新性解决方案。该系统已经在云网络的稳定性测试、故障演练和模糊测试中取得了成效,并且在未来有着明确的发展规划。

故障感知:目前WBC系统主要依靠被动地发现和反馈故障信息。未来,系统将增加主动发现稳定性隐患的功能,通过预测分析和机器学习技术,提前识别潜在的风险点。

故障自愈 :WBC系统计划引入故障自愈机制,当检测到故障时,系统不仅能够及时告警,还能够自动执行恢复流程,尽可能地减少人工干预,实现云网络的自我修复。


我们将致力于云网络稳定性测试和性能评估等方面的发展创新,持续优化我们的技术方案,为我们的客户提供稳定、可靠、安全的云网络服务。紫光云,以科技之力,让您的业务在云端畅通无阻。