新足迹

 找回密码
 注册

精华好帖回顾

· 费时的红烧酒酿猪蹄子~ (2010-7-14) 游牧人 · 学车心得 (2007-1-25) fantergaruo
· 参加活动--在澳洲买房(一) (2011-2-15) chatchat · 2013信手随笔之不舍集 (14年2月1日175楼更新) (2013-4-10) astina
Advertisement
Advertisement
楼主:edith921

[澳洲资讯] Optus查明全国性故障原因,称“路由信息发生变化”是罪魁祸首 [复制链接]

发表于 2023-11-13 20:54 来自手机 |显示全部楼层
此文章由 白兔 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 白兔 所有!转贴必须注明作者、出处和本声明,并保持内容完整
澳洲有一半人用optus?不是Telstra最大吗
Advertisement
Advertisement

发表于 2023-11-13 20:55 |显示全部楼层
此文章由 禾禾禾 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 禾禾禾 所有!转贴必须注明作者、出处和本声明,并保持内容完整
你大企业有些无关紧要的业务出这种管理问题也就算了,但你主要靠这吃饭的还在这方面省钱外包, 呵呵 ,作死呢。
T家估计也差不多

发表于 2023-11-13 20:58 来自手机 |显示全部楼层
此文章由 kanweng 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 kanweng 所有!转贴必须注明作者、出处和本声明,并保持内容完整
CLZ58322 发表于 2023-11-13 19:24
什么叫写错了呀?这个软件更新好像是roll out globally, 为什么只有optus 出了问题呀?aging hardware 也 ...

Configuration corrupted

发表于 2023-11-13 20:59 来自手机 |显示全部楼层
此文章由 AshleyLiang23 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 AshleyLiang23 所有!转贴必须注明作者、出处和本声明,并保持内容完整
据说是当时骨干路由器上移除了150个BGP前缀,继续发生BGP泛洪导致全网瘫痪。至于定位和修复需要多长时间,留待有经验的同学说说

发表于 2023-11-13 21:08 来自手机 |显示全部楼层
此文章由 cnmxiu 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 cnmxiu 所有!转贴必须注明作者、出处和本声明,并保持内容完整
给你200g

发表于 2023-11-13 21:17 |显示全部楼层
此文章由 WayneOZ 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 WayneOZ 所有!转贴必须注明作者、出处和本声明,并保持内容完整
果然是边界路由的问题 一般来说能引起这么大规模的事件,其根源还真没有多复杂。
Advertisement
Advertisement

发表于 2023-11-13 21:17 来自手机 |显示全部楼层
此文章由 elanora 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 elanora 所有!转贴必须注明作者、出处和本声明,并保持内容完整
反正我不懂。

发表于 2023-11-13 21:18 |显示全部楼层
此文章由 cisco 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 cisco 所有!转贴必须注明作者、出处和本声明,并保持内容完整
天朝屁民 发表于 2023-11-13 20:02
我是网络工程师,我表示这种操作根本无法理解。。。

但凡有OOB (out of band management)都不需要物理重 ...

我猜Optus的OOB都是用他们自己的服务4G/5G 或者分开的宽带
这次断网全断 OOB也断了

估计以后预防措施就是OOB改Telstra 每个关键team发几部Telstra手机 方便联系

发表于 2023-11-13 21:24 来自手机 |显示全部楼层
此文章由 粉红猫 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 粉红猫 所有!转贴必须注明作者、出处和本声明,并保持内容完整
“例行软件升级”后的“路由信息变更” - 这明摆是IOS upgrade造成路由表变了。所以code要认真test 好,再上production。upgrade 要primary secondary 分开两个window。这些good engineering practice 你要遵守。一次outage背后是20次类似没有被发现的风险。希望所有telco都能学到这课。这一行已经被cut corners 太多太多了。

评分

参与人数 1积分 +1 收起 理由
roofedcheese + 1

查看全部评分

发表于 2023-11-13 21:38 |显示全部楼层
此文章由 superblue 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 superblue 所有!转贴必须注明作者、出处和本声明,并保持内容完整
网工飘过,当时outage的时候他们twitter说是route-reflector的什么什么,如果peering太多,机器太弱,每次一个peering起来扔给你几十万的routes,造成机器high cpu,这种时候外面进不去,里面的peering也起不来,造成无法converge,唯一解决办法是重启或者console进去,然后控制peering的量,一点点起来,最后converge了就好了,不要问我为啥知道,十几年前经历过一次,当时是Juniper的机器。

评分

参与人数 2积分 +11 收起 理由
zhege + 6 你太有才了
dootbear + 5 感谢分享

查看全部评分

发表于 2023-11-13 21:40 |显示全部楼层
此文章由 superblue 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 superblue 所有!转贴必须注明作者、出处和本声明,并保持内容完整
cisco 发表于 2023-11-13 20:18
我猜Optus的OOB都是用他们自己的服务4G/5G 或者分开的宽带
这次断网全断 OOB也断了

我觉得就是这个问题,OOB用的也是自家的,一起挂了
Advertisement
Advertisement

发表于 2023-11-13 21:42 |显示全部楼层
此文章由 feihong 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 feihong 所有!转贴必须注明作者、出处和本声明,并保持内容完整
rayki 发表于 2023-11-13 19:20
路由信息难道不是持续变更的么? 这个说辞实在太冠冕堂皇了,忽悠非IT人士的。 无语 ...

就是因为会持续变更 所以会产生一些一想不到的结果 尤其是骨干网络部分 一个错误会被传播到网络的其他部分 如果是个循环路由 那么问题就大了

发表于 2023-11-13 21:43 |显示全部楼层
此文章由 Ponny 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Ponny 所有!转贴必须注明作者、出处和本声明,并保持内容完整
居然沒有甩鍋中國

发表于 2023-11-13 21:55 来自手机 |显示全部楼层
此文章由 天朝屁民 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 天朝屁民 所有!转贴必须注明作者、出处和本声明,并保持内容完整
cisco 发表于 2023-11-13 21:18
我猜Optus的OOB都是用他们自己的服务4G/5G 或者分开的宽带
这次断网全断 OOB也断了


是的,很可能是这样,陷入一个死循环了

但本质还是管理的问题

发表于 2023-11-13 22:54 来自手机 |显示全部楼层
此文章由 OneTreeHill 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 OneTreeHill 所有!转贴必须注明作者、出处和本声明,并保持内容完整
本帖最后由 OneTreeHill 于 2023-11-13 23:03 编辑

Optus CEO声音听起来好年轻

发表于 2023-11-13 22:56 来自手机 |显示全部楼层
此文章由 yxfc2003 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 yxfc2003 所有!转贴必须注明作者、出处和本声明,并保持内容完整
ceo不懂网络
Advertisement
Advertisement

发表于 2023-11-13 23:50 来自手机 |显示全部楼层
此文章由 ozkids2011 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 ozkids2011 所有!转贴必须注明作者、出处和本声明,并保持内容完整
dootbear 发表于 2023-11-13 19:36
需要14个小时是因为要dispatch 人员到全国各地的主要机房,physical reboot 那些路由器。

...


他家网络电话全断了啊,抓人都抓不到,除非个别员工是用别家的手机或网络的

发表于 2023-11-13 23:56 |显示全部楼层
此文章由 ASAP 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 ASAP 所有!转贴必须注明作者、出处和本声明,并保持内容完整
cisco 发表于 2023-11-13 21:18
我猜Optus的OOB都是用他们自己的服务4G/5G 或者分开的宽带
这次断网全断 OOB也断了

Telstra 手机都没有,太暴弱了,你不瘫谁瘫?
Subbie都知道上Optus站干活,Telstra手机是必须的。

发表于 2023-11-14 01:06 |显示全部楼层
此文章由 走走歇歇 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 走走歇歇 所有!转贴必须注明作者、出处和本声明,并保持内容完整
superblue 发表于 2023-11-13 21:38
网工飘过,当时outage的时候他们twitter说是route-reflector的什么什么,如果peering太多,机器太弱,每次 ...

这个讲法听着还是很有道理的,顶一下。

评分

参与人数 1积分 +4 收起 理由
superblue + 4 谢谢

查看全部评分

发表于 2023-11-14 01:43 |显示全部楼层
此文章由 cdreader 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 cdreader 所有!转贴必须注明作者、出处和本声明,并保持内容完整
重大生产事故

发表于 2023-11-14 07:46 来自手机 |显示全部楼层
此文章由 水月境天 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 水月境天 所有!转贴必须注明作者、出处和本声明,并保持内容完整
如果全国断网。是不是会恢复养鸽子传信啊?

忽然想到马斯克的小卫星手机还是需要备一部。
Advertisement
Advertisement

2012年度奖章获得者 2013年度奖章获得者

发表于 2023-11-14 08:35 来自手机 |显示全部楼层
此文章由 dootbear 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 dootbear 所有!转贴必须注明作者、出处和本声明,并保持内容完整
联邦政府要制定新的政策了,两大电信公司的主要骨干大神必须同时要带两部手机,一部必须是友商网络的手机。

发表于 2023-11-14 08:43 来自手机 |显示全部楼层
此文章由 RAMBLER 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 RAMBLER 所有!转贴必须注明作者、出处和本声明,并保持内容完整
dootbear 发表于 2023-11-14 08:35
联邦政府要制定新的政策了,两大电信公司的主要骨干大神必须同时要带两部手机,一部必须是友商网络的手机。 ...

手机要涨价?
本人不回复论坛某些特定ID发言,以免浪费浪费公共资源。
秉持就事论事,以事实为依据的良性讨论的精神。

2012年度奖章获得者 2013年度奖章获得者

发表于 2023-11-14 08:57 来自手机 |显示全部楼层
此文章由 dootbear 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 dootbear 所有!转贴必须注明作者、出处和本声明,并保持内容完整
RAMBLER 发表于 2023-11-14 08:43
手机要涨价?

哈哈,应该不会。

发表于 2023-11-14 09:40 来自手机 |显示全部楼层
此文章由 ulycn 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 ulycn 所有!转贴必须注明作者、出处和本声明,并保持内容完整
rayki 发表于 2023-11-13 19:28
理论上Optus这个体量可能很多路由要自己写,通过其他ISP骨干路由器学习过来的不用,理解上应该是自己的路由 ...

human error导致了这个路由loop
这个只在内部说
不会公开的

发表于 2023-11-14 09:44 来自手机 |显示全部楼层
此文章由 roychen63 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 roychen63 所有!转贴必须注明作者、出处和本声明,并保持内容完整
员工有这样的大老板其实蛮幸福的 不是一出了问题就马上把员工扔出去挡剑牌。
Advertisement
Advertisement

发表于 2023-11-14 09:45 来自手机 |显示全部楼层
此文章由 samolano 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 samolano 所有!转贴必须注明作者、出处和本声明,并保持内容完整
不管是啥原因 真的很垃圾

发表于 2023-11-14 10:37 来自手机 |显示全部楼层
此文章由 melmonash 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 melmonash 所有!转贴必须注明作者、出处和本声明,并保持内容完整
客服更垃圾

发表于 2023-11-14 10:49 |显示全部楼层
此文章由 RADEON 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 RADEON 所有!转贴必须注明作者、出处和本声明,并保持内容完整


这类系统,肯定都是一半升级,有问题,另一半正常工作,然后没事了,升级的一半正常工作,再弄另一半。

这个公司就是管理混乱。策略出了问题,人再出蠢招,

发表于 2023-11-14 11:34 |显示全部楼层
此文章由 RCF50 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 RCF50 所有!转贴必须注明作者、出处和本声明,并保持内容完整
IT大神不少,学习了不少,虽然也不明白

发表回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Advertisement
Advertisement
返回顶部