新知一下
海量新知
6 5 2 3 1 9 7

设备重启...引发全网重大故障

网优雇佣军 | 通信路上,一起走! 2022/09/07 01:08

重启,是网络运维屡试不爽的三板斧之一。

但现在要注意了,这板斧也有可能酿成大祸——把整网搞挂了!

2022年9月4日,日本第四大移动运营商乐天移动突发持续约2个半小时的网络重大事故,导致部分用户无法进行语音通话和数据通信。

当天,乐天移动发布公告称,故障原因为“系统故障”,但未公布影响范围。

9月5日,在事故发生一天后,乐天移动再次更新公告,表示此次事故原因为“ 网络设备重启导致流量拥塞 ”,影响用户约130万户。

什么?设备重启竟导致整网流量拥塞?

公告一出,再次引起业界热议。

一连串问号

为什么要重启设备?

是为了修复故障还是人为误操作?

重启的到底是什么设备?

是核心网设备,骨干路由器设备,还是边缘节点设备?

也有业内人士提出质疑:

作为一张端到端全虚拟化的移动网络,一次正常的网络设备重启,不是可以将网络功能迁移到其他通用服务器吗,为啥还导致了全网流量拥塞?

即使出现短暂的拥塞,对于虚拟化网络而言,不是可以通过横向扩展和增加服务器数量的方式来快速应对的吗?为啥故障持续了两个半小时?

关于这两点疑问,在上一篇文章中我们已经讲过,与传统移动运营商采用软硬一体化的专用电信设备建设移动网络不同,乐天移动网络是基于解耦的软件化功能、通用硬件和虚拟化基础设施构建的一张端到端全虚拟化移动网络。

而对于这张全IT化的移动网络,乐天移动多次宣称,由于可配置冗余通用服务器、轻松创建软件副本、快速迁移或安装新的虚拟机等,相对传统移动网络能更好避免网络重大故障。

全军覆没

作为一家2020年才全面商用网络的移动运营商,乐天移动当前拥有的用户数量约500万户,而此次故障影响的用户数为130万户,影响占比近3成,持续时间约2个半小时,显然影响范围较大,应该属于重大网络事故。

对此,日本总务省表示,根据《电信业务法》,此次通信故障为“重大网络事故”。

自此,自2018年以来,日本四大移动运营商相继遭遇网络重大事故,可谓全军覆没,无一幸免!

• 2018年12月6日,软银因“4G核心网设备(MME)软件缺陷”,导致全网4G业务中断约4个半小时,造成约3000万移动用户无法使用语音和数据业务。

• 2021年10月14日,NTT DoCoMo在对存储物联网终端设备的用户/位置服务器进行割接升级时失败,回退操作后引发信令风暴导致网络大拥塞,并波及3/4/5G网络的核心网网元,导致全网大量用户无法通话和上网。

• 2022年7月4日,KDDI在更换骨干路由器时失败,重新切换回旧的路由器后,引发大量终端向IMS网络突发海量信令,致使IMS核心网拥塞,导致全网语音和数据业务故障持续超过60个小时。

过去的日本通信业,尤其在2/3G时代,一度是全球仰望的高地,而今进入5G时代,不仅5G发展落后于中、韩、美,而且重大网络事故频发,真是令人感叹!

更多“网络运维”相关内容

更多“网络运维”相关内容

新知精选

更多新知精选