Facebook解釋周一全球停擺背後的骨幹網絡關閉事件

導致Facebook、其相關服務(Instagram、WhatsApp、Oculus、Messenger)、其企業平台和公司內部網絡癱瘓的大規模故障,都是從一次例行維護開始的。據基礎設施副總裁桑托什·賈納丹(Santosh
Janardhan)說,在維護過程中發出的一條命令無意中導致了連接世界上所有Facebook數據中心的骨幹網的關閉。

圖片.png

這本身就夠糟糕的了,但正如我們已經解釋過的,你無法使用Facebook的原因是,指向其服務器的DNS和BGP路由信息突然消失了。但據Janardhan說,這個問題原本反倒是次要的,因為Facebook的DNS服務器注意到與骨幹網的連接丟失,並停止分發BGP路由信息,以幫助互聯網上的每台計算機找到其服務器,這就導致DNS服務器本身仍在工作,但它們無法到達。

然後連鎖反應惡化了問題的表現:網絡連接的缺乏和DNS的丟失切斷了服務器與試圖修復問題的工程師的聯繫,並禁用了他們通常用於修復和通信的許多工具–就像我們昨天聽到的那樣:

圖片.png

什麼是BGP,它在Facebook的大規模故障中發揮了什麼作用?

由於圍繞這一關鍵硬件的物理和系統安全問題,工程師們遇到了額外的障礙。一旦他們”激活安全訪問協議”(這顯然不是”用角磨機切開服務器門”的暗語),他們就能夠讓主幹網上線,並在逐漸增加的負載中慢慢恢復服務。這也是昨天一些人花了較長時間才恢復訪問的部分原因,因為一次性打開所有資源所帶來報復性訪問需求可能會導致計算機更多的崩潰。

所以,沒有黑客入侵,只是一個審計工具遺漏了一個命令中的錯誤,而在六個小時內,連接數十億人的服務就這樣莫名其妙地消失了這麼久。

(0)
上一篇 2021-10-06 08:10
下一篇 2021-10-06 08:10

相关推荐