新足迹

 找回密码
 注册

精华好帖回顾

· 晚秋,MT Lofty (2009-5-8) marzi · “小荷才露尖尖角”-女儿获奖小记(5楼心得100楼比赛入围170楼获私校全额奖学金) (2008-11-29) villa
· 爪子痒痒了,也发发回忆录《一》(受AS等回忆录的启发) (2007-6-16) lilytop · 妹妹的2007(03/12/07更新) (2007-8-29) sail
Advertisement
Advertisement
查看: 3567|回复: 43

不懂就问,Optus这次故障的判断、检测、诊断、排除和预防的思路和方法如何? [复制链接]

发表于 2023-11-9 12:19 |显示全部楼层
此文章由 scoopy 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 scoopy 所有!转贴必须注明作者、出处和本声明,并保持内容完整
我对这种超大规模且去中心化的网络没具体概念,想请教各位大神,如果发生这类没遇到过且影响和后果巨大的故障,如何能争取尽可能地迅速、正确判断故障方向、检测、诊断、排除故障?

我管的网络规模很小,且都有中心点,最坏的情况就是从最上面的路由器开始,拔出所有网线,一步一步地向下排查故障的所在,查到故障节点所在后,断开故障节点,恢复其他节点的网络和服务。然后继续在故障节点下面继续寻找直到找到故障所在的设备或设置,然后就是查日志,恢复备份、更换设备什么的排除故障,确认故障设备正常后,再连入网络恢复服务。最后就是查找出现故障的原因和预防的故障的方法,该升级就升级,该更新就更新,该淘汰就淘汰,避免同样的故障的再次发生。


像Optus这种又成千上万的路由器且没有中心的超大规模的网络垮掉的故障,请问各位大神们,大致的故障的判断、检测、诊断、排除和预防的思路和方法如何?

不需要也不可能让各位写论文,只要是相关思路和方法,哪怕只言片语或案例或链接什么的都可以,我自己学习。

谢谢指教,回帖必加分。

评分

参与人数 1积分 +6 收起 理由
astina + 6 感谢分享

查看全部评分

Advertisement
Advertisement

发表于 2023-11-9 12:38 |显示全部楼层
此文章由 ozkids2011 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 ozkids2011 所有!转贴必须注明作者、出处和本声明,并保持内容完整
本人没有任何网络经验,感觉全部重启就完事了。估计插座开关也很多,花了十个小时才全部开关一遍

评分

参与人数 2积分 +6 收起 理由
chun.g + 4 你太有才了
scoopy + 2 感谢分享

查看全部评分

发表于 2023-11-9 13:13 |显示全部楼层
此文章由 hustshane 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 hustshane 所有!转贴必须注明作者、出处和本声明,并保持内容完整
CEO的回答很诡异

评分

参与人数 1积分 +2 收起 理由
scoopy + 2 感谢分享

查看全部评分

发表于 2023-11-9 13:15 |显示全部楼层
此文章由 yangkuan 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 yangkuan 所有!转贴必须注明作者、出处和本声明,并保持内容完整
早上4点的outage,十有八九是planned work gone wrong,只能说到这里了
如果是hardware failure 或者链路断了 早就能公布了

评分

参与人数 1积分 +6 收起 理由
scoopy + 6 感谢分享

查看全部评分

发表于 2023-11-9 13:21 |显示全部楼层
此文章由 henryhe1985 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 henryhe1985 所有!转贴必须注明作者、出处和本声明,并保持内容完整
论坛里面有人说也许在升级中把BGP改了,让request成倍的增加,最后把整个网络弄瘫痪了? 最后被迫手动重启?这是不可靠的小道消息,期待大神来回答

评分

参与人数 1积分 +2 收起 理由
scoopy + 2 感谢分享

查看全部评分

发表于 2023-11-9 13:21 |显示全部楼层
此文章由 henryhe1985 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 henryhe1985 所有!转贴必须注明作者、出处和本声明,并保持内容完整
yangkuan 发表于 2023-11-9 14:15
早上4点的outage,十有八九是planned work gone wrong,只能说到这里了
如果是hardware failure 或者链路断 ...

同意,不会是一些过于幼稚的问题或者涉及内部安全管理的漏洞,所以没给公众解释?期待政府的调查结果

评分

参与人数 1积分 +2 收起 理由
scoopy + 2 感谢分享

查看全部评分

Advertisement
Advertisement

发表于 2023-11-9 13:26 |显示全部楼层
此文章由 scoopy 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 scoopy 所有!转贴必须注明作者、出处和本声明,并保持内容完整
如果是hardware failure 或者链路断了,据我所知,局部网络可能有问题,但在这种去中心化的网络,应该不会造成整个网络垮掉了。

就算是planned work gone wrong,在有以万计的路由器的且已经断了的网络里,如何寻找故障点?那夜被执行的schedule tasks估计也至少是论万计的。

发表于 2023-11-9 13:33 |显示全部楼层
此文章由 scoopy 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 scoopy 所有!转贴必须注明作者、出处和本声明,并保持内容完整
henryhe1985 发表于 2023-11-9 14:21
论坛里面有人说也许在升级中把BGP改了,让request成倍的增加,最后把整个网络弄瘫痪了? 最后被迫手动重启 ...

我的问题就是如何在灾难刚开始的时候就能往BGP方向而不是其他方向排除,最后确定是BGP的问题后,又是如何大致确定那个或那些个路由器是故障的源头,要知道那时的网络,应该是ping都ping不通;没中心点,意味着你也没法通过拔网线去判断故障的大致范围。

发表于 2023-11-9 13:52 |显示全部楼层
此文章由 tony_wang99 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 tony_wang99 所有!转贴必须注明作者、出处和本声明,并保持内容完整
routing loop ,,,easy

评分

参与人数 1积分 +4 收起 理由
scoopy + 4 感谢分享

查看全部评分

发表于 2023-11-9 14:05 |显示全部楼层
此文章由 scoopy 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 scoopy 所有!转贴必须注明作者、出处和本声明,并保持内容完整

请教如何能很快地判断是routing loop的问题而不是其他的问题?如何在整个网络都断掉了情况下去寻找故障解点呢?应该不会是本地登录每一个网络上的路由器吧?

发表于 2023-11-9 14:22 来自手机 |显示全部楼层
此文章由 windfox 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 windfox 所有!转贴必须注明作者、出处和本声明,并保持内容完整
一般情况下应该会有网络拓扑图的,这种大范围的网络中断应该不是硬件故障,大概率就是路由配置问题。 我不是网络工程师,只是通信从业人员

评分

参与人数 1积分 +2 收起 理由
scoopy + 2 感谢分享

查看全部评分

Advertisement
Advertisement

发表于 2023-11-9 14:24 来自手机 |显示全部楼层
此文章由 windfox 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 windfox 所有!转贴必须注明作者、出处和本声明,并保持内容完整
我的判断是高级核心人员犯了低级错误。


不过这里是干活的不拿钱,拿钱的不干活

评分

参与人数 1积分 +2 收起 理由
scoopy + 2 感谢分享

查看全部评分

发表于 2023-11-9 15:41 |显示全部楼层
此文章由 symeteor 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 symeteor 所有!转贴必须注明作者、出处和本声明,并保持内容完整
这种肯定是改了什么东西然后出错了
然后网络挂了结果想回滚也滚不回去

评分

参与人数 1积分 +2 收起 理由
scoopy + 2 感谢分享

查看全部评分

发表于 2023-11-9 15:49 |显示全部楼层
此文章由 rayki 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 rayki 所有!转贴必须注明作者、出处和本声明,并保持内容完整
理论上这种事儿,至少有8+个节点骨干路由器中间的BGP起不来了,然后不停的和彼此的邻居协商,然后导致整个route table不停的更新,整个就没有稳定的时候。
其实这种事儿多数情况下很容易找,但是操作这个更新的人过于自大,不相信自己眼睛看到的, 每次都不停的把问题推给别人。
网络其实是挂不了,因为管理VLAN没有flooding,只能是整个troubleshooting的时候,过于自大了,才导致这么久。

评分

参与人数 1积分 +6 收起 理由
scoopy + 6 感谢分享

查看全部评分

我来问道无余话,云在青天水在瓶

发表于 2023-11-9 16:26 |显示全部楼层
此文章由 scoopy 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 scoopy 所有!转贴必须注明作者、出处和本声明,并保持内容完整
rayki 发表于 2023-11-9 16:49
理论上这种事儿,至少有8+个节点骨干路由器中间的BGP起不来了,然后不停的和彼此的邻居协商,然后导致整个r ...

谢谢回复,就是说路由器的管理是走专用的VLAN,也有专用路由表,所以哪怕其他的网络都垮掉了,管理的VLAN还是可以正常操作的?

白条先,回血加分。

发表于 2023-11-9 16:32 来自手机 |显示全部楼层
此文章由 rayki 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 rayki 所有!转贴必须注明作者、出处和本声明,并保持内容完整
scoopy 发表于 2023-11-9 17:26
谢谢回复,就是说路由器的管理是走专用的VLAN,也有专用路由表,所以哪怕其他的网络都垮掉了,管理的VLAN ...

这是一定的。那些bastion jump server 都在独立的管理vlan的,这样即便所有的资源都耗尽。有点点资源QOS 管理console还是必须要保证的.

评分

参与人数 1积分 +6 收起 理由
scoopy + 6 感谢分享

查看全部评分

我来问道无余话,云在青天水在瓶
Advertisement
Advertisement

发表于 2023-11-9 17:30 |显示全部楼层
此文章由 yang5637 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 yang5637 所有!转贴必须注明作者、出处和本声明,并保持内容完整
关系到民生的公共系统必须要有影子工程备份,以确保公共系统不间断运行。比如供水供电供气和银行民航移动通信数据系统都是如此。

评分

参与人数 1积分 +2 收起 理由
scoopy + 2 感谢分享

查看全部评分

发表于 2023-11-9 18:30 |显示全部楼层
此文章由 abercorn 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 abercorn 所有!转贴必须注明作者、出处和本声明,并保持内容完整
现在电信公司的电话、短信、宽带服务都完全依靠同一个核心网吗?
一下子全部服务都崩溃了让人难以相信。难道关键的电信服务没有一点冗余备份吗?
就像有些关键场所即使电网断了,还有自备的柴油发电机能顶一阵子。

评分

参与人数 1积分 +2 收起 理由
scoopy + 2 感谢分享

查看全部评分

发表于 2023-11-9 18:45 |显示全部楼层
此文章由 hhxxttxs 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 hhxxttxs 所有!转贴必须注明作者、出处和本声明,并保持内容完整
我的一点体会:

昨天开始,我最难以理解的是,固话、手机、宽带三个业务全部服务中断。以老的电信思维,这是绝无可能发生的,本来就是互相不通的三个系统。所以以为是基础用户验证出问题了。后来看修了十小时,那肯定就不是了,就百万级别的用户验证数据库,十个小时也太久了。

后来醒悟了,固话、手机的语音,现在都是voip,所以表面上是三个业务,其实就是一个网,全是数据。加上传言BGP凌晨异常,一个小时几十万条更新请求被收到。初步结论是某个change引发了不可预知的后果。

这网络工程师凌晨三点,估计迷迷糊糊,不知道是敲错了命令还是load错了脚本,估计等全网瘫痪他也崩溃了吧。
即便如此,竟然要修十个小时也是离谱。optus的服务级别,在供应商那里都是最高级的。全网中断一个小时,所有厂商的核心工程师都会被叫醒远程上来看,就像上面说的,这种远程登录的网络是独立的,不受业务中断影响。

在生产网没断的时候,不好搞,生产网已经全断了,应该很容易搞啊。想重启哪台都随意,反正都歇菜了。具体该重启哪台,什么顺序,都有灾备手册的啊。

实在不明白为何搞了这么久。3-5小时可以理解。

评分

参与人数 1积分 +6 收起 理由
scoopy + 6 感谢分享

查看全部评分

发表于 2023-11-9 18:53 |显示全部楼层
此文章由 kidz821 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 kidz821 所有!转贴必须注明作者、出处和本声明,并保持内容完整
hhxxttxs 发表于 2023-11-9 19:45
我的一点体会:

昨天开始,我最难以理解的是,固话、手机、宽带三个业务全部服务中断。以老的电信思维,这 ...

所有厂商的核心工程师都会被叫醒远程上来看

他們都是用 optus, 之後大家一齊去買 telstra card
把 telstra都拖下去了

评分

参与人数 1积分 +2 收起 理由
scoopy + 2 感谢分享

查看全部评分

发表于 2023-11-9 19:00 |显示全部楼层
此文章由 caibutou2008 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 caibutou2008 所有!转贴必须注明作者、出处和本声明,并保持内容完整

评分

参与人数 1积分 +2 收起 理由
scoopy + 2 感谢分享

查看全部评分

Advertisement
Advertisement

发表于 2023-11-9 19:02 |显示全部楼层
此文章由 cxjzhj 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 cxjzhj 所有!转贴必须注明作者、出处和本声明,并保持内容完整
顺着网线找就是了

评分

参与人数 1积分 +2 收起 理由
scoopy + 2 感谢分享

查看全部评分

发表于 2023-11-9 19:02 |显示全部楼层
此文章由 Grange 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Grange 所有!转贴必须注明作者、出处和本声明,并保持内容完整
根据以往的经验,这么大blast radius的outage十有八九是由planned network maintenance造成的。但一般这种情况在找原因的时候很容易,像楼上说的,找到change然后把change rollback就好了。如果是BGP或routing相关的问题,根据经验,一般outage不会这么长时间,reconverge routes不会花太长时间。但还有一个outage这么长时间的可能性就是Optus那边的问题已经解决了,但是所有用户同时连线,他们等于被DDoS了。

如果他们有Problem Management的话,现在应该正在做Root Cause Analysis。但具体的技术原因他们是不会和用户share的,肯定就是一些很笼统的东西。

我不是Optus的用户,但听说这次他们做的非常不好的一点是没有给用户提供regular updates,连他们自己的网站上都没有更新,他们的CEO也没有做好公关。

评分

参与人数 1积分 +12 收起 理由
scoopy + 12 感谢分享

查看全部评分

发表于 2023-11-9 19:20 |显示全部楼层
此文章由 cisco 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 cisco 所有!转贴必须注明作者、出处和本声明,并保持内容完整
本帖最后由 cisco 于 2023-11-9 20:22 编辑
hhxxttxs 发表于 2023-11-9 19:45
我的一点体会:

昨天开始,我最难以理解的是,固话、手机、宽带三个业务全部服务中断。以老的电信思维,这 ...


全网都断了,家里网也断了,手机也断了,这工程师怎么去通知别人?
想给同事打电话,估计发现同事也都是Optus手机。想开个troubleshooting的会也开不了。想rollback也肯定没网络远程。

最后解决方案,多半是各网工们赶飞机,开车集体去数据中心现场修。

评分

参与人数 1积分 +2 收起 理由
scoopy + 2 感谢分享

查看全部评分

发表于 2023-11-9 19:24 |显示全部楼层
此文章由 cisco 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 cisco 所有!转贴必须注明作者、出处和本声明,并保持内容完整
这次最搞笑的是全网断,Optus内部肯定乱成一团,想想你所有同事手机网络都不工作。当天上午,很多Optus通信沟通都是whatsapp,哈哈哈哈

评分

参与人数 1积分 +2 收起 理由
scoopy + 2 感谢分享

查看全部评分

发表于 2023-11-9 20:23 |显示全部楼层
此文章由 yang5637 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 yang5637 所有!转贴必须注明作者、出处和本声明,并保持内容完整
一主二备三应急,再加上影子系统,肿么可能造成全网中断?

评分

参与人数 1积分 +2 收起 理由
scoopy + 2 感谢分享

查看全部评分

Advertisement
Advertisement

发表于 2023-11-9 20:28 来自手机 |显示全部楼层
此文章由 MU 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 MU 所有!转贴必须注明作者、出处和本声明,并保持内容完整
管理上的问题太大了,各个方面都作的一塌糊涂。高层都不知道干什么吃的,关键时刻没一个方面是过关的。

评分

参与人数 1积分 +2 收起 理由
scoopy + 2 感谢分享

查看全部评分

发表于 2023-11-9 23:24 |显示全部楼层
此文章由 上班ing 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 上班ing 所有!转贴必须注明作者、出处和本声明,并保持内容完整
我们公司正在把所有的手机和网络切换到Optus去,以前是TELSTRA。不知道能省多少钱。
手机已经换了,所以所有的紧急support电话都打不通了。网络本来下周还是啥时候要切换的,现在推迟了
如果我们之前就切换完成了,可能很多人连这个新闻都看不利索了

评分

参与人数 1积分 +2 收起 理由
scoopy + 2 感谢分享

查看全部评分

发表于 2023-11-10 06:41 |显示全部楼层
此文章由 cisco 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 cisco 所有!转贴必须注明作者、出处和本声明,并保持内容完整
能出这样的状况 最根本就是管理问题

评分

参与人数 1积分 +2 收起 理由
scoopy + 2 感谢分享

查看全部评分

发表于 2023-11-10 07:10 |显示全部楼层
此文章由 flatfall 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 flatfall 所有!转贴必须注明作者、出处和本声明,并保持内容完整
猜猜是CEO/CTO下课?还是攻城狮下课?

评分

参与人数 1积分 +2 收起 理由
scoopy + 2 感谢分享

查看全部评分

发表回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Advertisement
Advertisement
返回顶部